このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231013となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# PoSでデリゲートをリズミカルに選び出す方法
How to Rationally Select Your Delegatee in PoS ( http://arxiv.org/abs/2310.08895v1 ) ライセンス: Link先を確認 | Yuzhe Zhang, Qin Wang, Shiping Chen, Chen Wang, | (参考訳) 特にEthereum 2.0のコンテキストにおいて、PoSプロトコルの中で、どのようにデリゲートされたバリデータを選択するべきか。
これは長年見過ごされてきたギャップであり、既存の研究は、委員会、特に信頼できるバリデーションを求める個人利害関係者の動的形成を無視しながら、主にコミッテート間(検証者集合)の行動と活動に焦点を当ててきた。
我々の研究は、実際のコンセンサスフェーズに入る前に、このギャップをデリゲートプロセス(通常ユーザは、後にバリデータとして機能するデリゲートに小額のトークンを委譲する)に飛び込み、橋渡しします。
我々は,通常のユーザのデリゲートに対する信頼度を定量化するベイズモデルを提案し,さらにゲーム理論モデルに組み込んで,広範な研究(10以上のテイクサービスプロバイダと30以上のPoSブロックチェーンを含む)を通じて識別された重要な要因に対するユーザの反応をシミュレートする。
この結果から,利用者は代行コスト,他ユーザの行動,および代行者の評判を慎重に評価し,最終的にナッシュ均衡に達することで代行者を選択して利用しがちであることが明らかとなった。
残念なことに、この集団傾向は少数のデリゲートにトークン濃度が集中する可能性を大幅に高める。
This paper centers around a simple yet crucial question for everyday users: How should one choose their delegated validators within proof-of-stake (PoS) protocols, particularly in the context of Ethereum 2.0? This has been a long-overlooked gap, as existing studies have primarily focused on inter-committee (validator set) behaviors and activities, while neglecting the dynamic formation of committees, especially for individual stakeholders seeking reliable validators. Our study bridges this gap by diving into the delegation process (normal users delegate their small-value tokens to delegatees who later act as validators) before entering an actual consensus phase. We propose a Bayesian model to quantify normal users' trust in delegatees, which we further incorporate into a game-theoretical model to simulate users' reactions against a set of critical factors identified through extensive research (including 10+ staking service provider as well as 30+ PoS blockchains). Our results reveal that users tend to choose their delegatees and utilize their tokens by carefully weighing the delegation cost, the behaviors of other users, and the reputation of delegatees, ultimately reaching a Nash equilibrium. Unfortunately, the collective trend significantly increases the likelihood of token concentration on a small number of delegatees. | 翻訳日:2024-03-19 02:33:12 公開日:2023-10-13 |
# EuXFELノードのログ異常検出
Log Anomaly Detection on EuXFEL Nodes ( http://arxiv.org/abs/2310.08951v1 ) ライセンス: Link先を確認 | Antonin Sulc, Annika Eichler, Tim Wilksen, | (参考訳) 本稿では,欧州XFEL加速器の制御系ノードが生成するログデータの異常を検出する手法を提案する。
提案手法の主な目的は,各ノードに特有の可用性,ステータス,問題に対する包括的理解を提供することである。
この情報はスムーズな操作を保証するのに不可欠です。
ログのシーケンシャルな性質と,ノードに特有のリッチテキストコーパスの欠如は,従来型および学習型アプローチによる異常検出に重大な制限をもたらす。
この制限を克服するため,HMM(Hidden Markov Model)を用いて単語埋め込みと個々のノードを共起するベクトル列としてモデル化する手法を提案する。
我々は、新しいエントリを含む全ログシーケンスの確率と、新しいエントリを含まない前のログエントリのみの確率との確率比を計算することで、個々のログエントリを評価する。
この比は、新しいエントリが加えられたときのシーケンスの確率を示す。
提案手法は,EuXFELノードからのログエントリをスコアリングし,ランク付けすることで異常を検出する。
この方法は、問題を示す可能性のある不規則なログイベントについてオペレータに警告する警告システムを提供する。
This article introduces a method to detect anomalies in the log data generated by control system nodes at the European XFEL accelerator. The primary aim of this proposed method is to provide operators a comprehensive understanding of the availability, status, and problems specific to each node. This information is vital for ensuring the smooth operation. The sequential nature of logs and the absence of a rich text corpus that is specific to our nodes poses significant limitations for traditional and learning-based approaches for anomaly detection. To overcome this limitation, we propose a method that uses word embedding and models individual nodes as a sequence of these vectors that commonly co-occur, using a Hidden Markov Model (HMM). We score individual log entries by computing a probability ratio between the probability of the full log sequence including the new entry and the probability of just the previous log entries, without the new entry. This ratio indicates how probable the sequence becomes when the new entry is added. The proposed approach can detect anomalies by scoring and ranking log entries from EuXFEL nodes where entries that receive high scores are potential anomalies that do not fit the routine of the node. This method provides a warning system to alert operators about these irregular log events that may indicate issues. | 翻訳日:2024-03-19 02:33:12 公開日:2023-10-13 |
# 均一な誤差を有するインジェクティブランクメトリックトリップドア関数
Injective Rank Metric Trapdoor Functions with Homogeneous Errors ( http://arxiv.org/abs/2310.08962v1 ) ライセンス: Link先を確認 | Étienne Burle, Philippe Gaborit, Younes Hatri, Ayoub Otmani, | (参考訳) ランクメトリック暗号において、有限体上の有限次元線型空間からのベクトルは、その入射によって広がる線型空間と見なされる。
ランダムな線形符号を復号する問題の類似である階数復号問題は、秘密解を共有するランダムな線形方程式の集合を摂動するために用いられたランダムなノイズベクトルの基底を復元するものである。
この問題の難易度を仮定し, 単方向トラップドア関数を新たに構築する。
私たちのソリューションは、公開鍵プリミティブをエラー訂正コードから頻繁に作り出す方法から外れています。
提案手法は,入力を復元する秘密を構成する低重みベクトルとともに,十分な入力ベクトルを共有するトラップドア関数に注目することを目的としている。
そこで,低ランクパリティチェック(LRPC)符号に対して設計された誤り訂正アルゴリズムを適用し,圧倒的な確率で入力を復元する反転アルゴリズムを得る。
In rank-metric cryptography, a vector from a finite dimensional linear space over a finite field is viewed as the linear space spanned by its entries. The rank decoding problem which is the analogue of the problem of decoding a random linear code consists in recovering a basis of a random noise vector that was used to perturb a set of random linear equations sharing a secret solution. Assuming the intractability of this problem, we introduce a new construction of injective one-way trapdoor functions. Our solution departs from the frequent way of building public key primitives from error-correcting codes where, to establish the security, ad hoc assumptions about a hidden structure are made. Our method produces a hard-to-distinguish linear code together with low weight vectors which constitute the secret that helps recover the inputs.The key idea is to focus on trapdoor functions that take sufficiently enough input vectors sharing the same support. Applying then the error correcting algorithm designed for Low Rank Parity Check (LRPC) codes, we obtain an inverting algorithm that recovers the inputs with overwhelming probability. | 翻訳日:2024-03-19 02:33:12 公開日:2023-10-13 |
# DocCert:Nostrification, Document Verification and Authenticity Blockchain Solution
DocCert: Nostrification, Document Verification and Authenticity Blockchain Solution ( http://arxiv.org/abs/2310.09136v1 ) ライセンス: Link先を確認 | Monther Aldwairi, Mohamad Badra, Rouba Borghol, | (参考訳) 多くの機関や組織は、雇用の前提条件として、資格の証明と証明を必要としている。
外国の機関が発行するコピーやデジタル文書の真偽を認識し、偽造を検知する。
証明書、財務記録、健康記録、公文書等は、しばしば異なる場所にある複数の団体から証明されることが求められる。
しかし、ほとんどのアプリケーションがオンラインで行われ、文書のコピーがアップロードされるこのデジタル時代には、従来のシグネチャとアザラシメソッドは時代遅れである。
数分で簡単なフォトエディターで、証明書または文書のコピーを盗用または偽造することができる。
ブロックチェーン技術は、大規模なインフラストラクチャ投資を必要とせずにトランザクションを記録、検証するための分散的なアプローチを提供する。
本稿では,学生や利害関係者が検証可能な,ブロックチェーンに基づく証明システムを提案する。
本稿では,提案方式の徹底的な議論と形式的評価について述べる。
Many institutions and organizations require nostrification and verification of qualification as a prerequisite for hiring. The idea is to recognize the authenticity of a copy or digital document issued by an institution in a foreign country and detect forgeries. Certificates, financial records, health records, official papers and others are often required to be attested from multiple entities in distinct locations. However, in this digital era where most applications happen online, and document copies are uploaded, the traditional signature and seal methods are obsolete. In a matter of minutes and with a simple photo editor, a certificate or document copy may be plagiarized or forged. Blockchain technology offers a decentralized approach to record and verify transactions without the need for huge infrastructure investment. In this paper, we propose a blockchain based nostrification system, where awarding institutions generate a digital certificate, store in a public but permissioned blockchain, where students and other stakeholders may verify. We present a thorough discussion and formal evaluation of the proposed system. | 翻訳日:2024-03-19 02:33:12 公開日:2023-10-13 |
# 開示リスク評価要件の詳細な検討
An In-Depth Examination of Requirements for Disclosure Risk Assessment ( http://arxiv.org/abs/2310.09398v1 ) ライセンス: Link先を確認 | Ron S. Jarmin, John M. Abowd, Robert Ashmead, Ryan Cumings-Menon, Nathan Goldschlag, Michael B. Hawes, Sallie Ann Keller, Daniel Kifer, Philip Leclerc, Jerome P. Reiter, Rolando A. Rodríguez, Ian Schmutte, Victoria A. Velkoff, Pavel Zhuravlev, | (参考訳) 2020年の人口・住宅人口調査会の回答の機密性を保護するために、正式なプライバシーの使用は、公表されたデータ製品の開示リスクと社会的利益を測定する方法について、新たな関心や議論を引き起こしている。
経済・統計学における長年の先例に従い、開示リスクを定量化するための提案は、事前に特定された客観的基準に基づいて行うべきであると論じる。
このような基準は、最も望ましい特性を持つものを特定するために方法論を比較するために使われるべきである。
本稿では,この手法を用いて,絶対的開示リスク枠組み,差分プライバシーを基盤とした反ファクト的枠組み,および事前と後の比較を評価する。
全てのデシダラタを満たすことは不可能であると結論づけるが、絶対的な開示リスクが最少を満足する一方で、非現実的な比較は最少を満足する。
さらに、差分プライバシーに対する批判の多くは、機密データへの直接的かつ制限のないアクセスと同等でない技術に対して緩和される。
したがって、さらなる研究が必要であるが、短期的には、カウンターファクトのアプローチはプライバシ・ユーティリティ分析に最も適しているように見える。
The use of formal privacy to protect the confidentiality of responses in the 2020 Decennial Census of Population and Housing has triggered renewed interest and debate over how to measure the disclosure risks and societal benefits of the published data products. Following long-established precedent in economics and statistics, we argue that any proposal for quantifying disclosure risk should be based on pre-specified, objective criteria. Such criteria should be used to compare methodologies to identify those with the most desirable properties. We illustrate this approach, using simple desiderata, to evaluate the absolute disclosure risk framework, the counterfactual framework underlying differential privacy, and prior-to-posterior comparisons. We conclude that satisfying all the desiderata is impossible, but counterfactual comparisons satisfy the most while absolute disclosure risk satisfies the fewest. Furthermore, we explain that many of the criticisms levied against differential privacy would be levied against any technology that is not equivalent to direct, unrestricted access to confidential data. Thus, more research is needed, but in the near-term, the counterfactual approach appears best-suited for privacy-utility analysis. | 翻訳日:2024-03-19 02:33:12 公開日:2023-10-13 |
# 自律型サプライチェーンを目指して:定義,特徴,概念的枠組み,自律性レベル Towards Autonomous Supply Chains: Definition, Characteristics, Conceptual Framework, and Autonomy Levels ( http://arxiv.org/abs/2401.14183v1 ) ライセンス: Link先を確認 | Liming Xu and Stephen Mak and Yaniv Proselkov and Alexandra Brintrup | (参考訳) パンデミックや地政学的紛争といった最近の世界的な混乱は、従来のサプライチェーンの脆弱性を深く暴露し、より弾力性のある代替手段の探求を必要としている。
自律的なサプライチェーン(ASC)が潜在的なソリューションとして登場し、乱流貿易環境における可視性、柔軟性、レジリエンスを高めている。
数年にわたる産業とアカデミックに関する議論にもかかわらず、ASCは十分に確立された理論基盤を欠いている。
本稿では,ASCの形式的定義と,その定義的特徴と補助的概念によって,この研究ギャップに対処する。
MIISIモデルと呼ばれる階層構造の概念的枠組みを提案する。
食肉サプライチェーンに着目した実証的なケーススタディは、この概念モデルに基づく初期ASC実装を示す。
さらに,7段階のサプライチェーン自律モデルを導入し,完全なサプライチェーン自律を実現するための軌道を規定する。
この作業が最初の取り組みであることを認識し、この新興領域における継続的な調査の必要性を強調します。
我々は,この研究が理論と技術の両方においてさらなる研究を刺激し,ASCの継続的な進化に寄与することを期待している。 Recent global disruptions, such as the pandemic and geopolitical conflicts, have profoundly exposed vulnerabilities in traditional supply chains, requiring exploration of more resilient alternatives. Autonomous supply chains (ASCs) have emerged as a potential solution, offering increased visibility, flexibility, and resilience in turbulent trade environments. Despite discussions in industry and academia over several years, ASCs lack well-established theoretical foundations. This paper addresses this research gap by presenting a formal definition of ASC along with its defining characteristics and auxiliary concepts. We propose a layered conceptual framework called the MIISI model. An illustrative case study focusing on the meat supply chain demonstrates an initial ASC implementation based on this conceptual model. Additionally, we introduce a seven-level supply chain autonomy reference model, delineating a trajectory towards achieving a full supply chain autonomy. Recognising that this work represents an initial endeavour, we emphasise the need for continued exploration in this emerging domain. We anticipate that this work will stimulate further research, both theoretical and technical, and contribute to the continual evolution of ASCs. | 翻訳日:2024-02-11 17:49:11 公開日:2023-10-13 |
# CopyScope:拡散ワークフローにおけるモデルレベルの著作権侵害定量化 CopyScope: Model-level Copyright Infringement Quantification in the Diffusion Workflow ( http://arxiv.org/abs/2311.12847v1 ) ライセンス: Link先を確認 | Junlei Zhou and Jiashi Gao and Ziwei Wang and Xuetao Wei | (参考訳) WebベースのAI画像生成は、拡散モデルの急速な発展とともに、新しいアート作品を生成できる革新的な芸術形式になりつつある。
しかし、この新技術は、所有者の同意なしに既存のアートワークを組み込む可能性があるため、著作権侵害の潜在的なリスクをもたらす。
著作権侵害の定量化は、AIが生成した画像著作権トレーサビリティへの第一かつ挑戦的なステップである。
本研究は,(1) トレーニングデータセットが必ずしも公開されていないこと,(2) モデル提供者はイメージではなく責任ある当事者であること,などの理由から,著作権侵害の追跡と定量化に適さない,トレーニングデータの観点からのデータ属性のみに着目した。
そこで本稿では,モデルレベルからai生成画像の侵害を定量化する新しいフレームワークであるコピースコープを提案する。
まず、AI画像生成パイプライン内の重要なコンポーネントを厳格に識別する。
次に、Fr'echet Inception Distance(FID)を利用して、人間の知覚に自然に適合する画像の類似性を効果的に捉えることを提案する。
さらに、モデル間の侵害貢献を評価するために、FIDに基づくShapleyアルゴリズムを提案する。
広範な実験により,本研究は侵害定量化の複雑さを明らかにするだけでなく,侵害モデルを定量的に表現し,ai画像生成タスクにおける説明責任を促進することを実証した。 Web-based AI image generation has become an innovative art form that can generate novel artworks with the rapid development of the diffusion model. However, this new technique brings potential copyright infringement risks as it may incorporate the existing artworks without the owners' consent. Copyright infringement quantification is the primary and challenging step towards AI-generated image copyright traceability. Previous work only focused on data attribution from the training data perspective, which is unsuitable for tracing and quantifying copyright infringement in practice because of the following reasons: (1) the training datasets are not always available in public; (2) the model provider is the responsible party, not the image. Motivated by this, in this paper, we propose CopyScope, a new framework to quantify the infringement of AI-generated images from the model level. We first rigorously identify pivotal components within the AI image generation pipeline. Then, we propose to take advantage of Fr\'echet Inception Distance (FID) to effectively capture the image similarity that fits human perception naturally. We further propose the FID-based Shapley algorithm to evaluate the infringement contribution among models. Extensive experiments demonstrate that our work not only reveals the intricacies of infringement quantification but also effectively depicts the infringing models quantitatively, thus promoting accountability in AI image-generation tasks. | 翻訳日:2024-01-15 15:20:53 公開日:2023-10-13 |
# 適応的バンディット実験を用いたメンタルヘルスの関与度向上と調査 Using Adaptive Bandit Experiments to Increase and Investigate Engagement in Mental Health ( http://arxiv.org/abs/2310.18326v1 ) ライセンス: Link先を確認 | Harsh Kumar, Tong Li, Jiakai Shi, Ilya Musabirov, Rachel Kornfield, Jonah Meyerhoff, Ananya Bhattacharjee, Chris Karr, Theresa Nguyen, David Mohr, Anna Rafferty, Sofia Villar, Nina Deliu, Joseph Jay Williams | (参考訳) デジタルメンタルヘルス(DMH)の介入、例えばテキスト・メッセージに基づく授業や活動は、アクセス可能なメンタルヘルス支援に大きな可能性を秘めている。
これらの介入は効果的であるが、実際の実験は設計と影響をさらに強化することができる。
マルチアーム付きバンディット(mab)問題に対するトンプソンサンプリングのようなアルゴリズムを用いた適応実験は、継続的な改善とパーソナライズにつながる可能性がある。
しかし、これらのアルゴリズムがユーザー体験報酬を同時に増加させ、社会行動科学者が十分な統計的信頼度で分析するための適切なデータ収集を容易にするかどうかは不明である。
mabや他の適応アルゴリズムの実用的・統計的側面について研究が増えているが、様々な現実世界の文脈でその影響を評価するためには、さらなる調査が必要である。
本稿では,従来の一様ランダムな非適応実験と並べて比較するためのデータを収集しながら,Banditや他のアルゴリズムを用いてテキストメッセージ介入コンポーネントを適応させることができるソフトウェアシステムを提案する。
我々は,テキストメッセージベースのdmh介入を1100ユーザに展開し,大規模メンタルヘルス非営利組織を通じて採用し,このシステムを大規模に展開するための道筋を共有し,システムを評価する。
このシステムはメンタルヘルスの応用を可能にするだけでなく、他の領域での適応実験アルゴリズムのモデルテストベッドとしても機能する。 Digital mental health (DMH) interventions, such as text-message-based lessons and activities, offer immense potential for accessible mental health support. While these interventions can be effective, real-world experimental testing can further enhance their design and impact. Adaptive experimentation, utilizing algorithms like Thompson Sampling for (contextual) multi-armed bandit (MAB) problems, can lead to continuous improvement and personalization. However, it remains unclear when these algorithms can simultaneously increase user experience rewards and facilitate appropriate data collection for social-behavioral scientists to analyze with sufficient statistical confidence. Although a growing body of research addresses the practical and statistical aspects of MAB and other adaptive algorithms, further exploration is needed to assess their impact across diverse real-world contexts. This paper presents a software system developed over two years that allows text-messaging intervention components to be adapted using bandit and other algorithms while collecting data for side-by-side comparison with traditional uniform random non-adaptive experiments. We evaluate the system by deploying a text-message-based DMH intervention to 1100 users, recruited through a large mental health non-profit organization, and share the path forward for deploying this system at scale. This system not only enables applications in mental health but could also serve as a model testbed for adaptive experimentation algorithms in other domains. | 翻訳日:2023-11-05 14:15:09 公開日:2023-10-13 |
# 学習の効率化 Progressively Efficient Learning ( http://arxiv.org/abs/2310.13004v1 ) ライセンス: Link先を確認 | Ruijie Zheng, Khanh Nguyen, Hal Daum\'e III, Furong Huang, Karthik Narasimhan | (参考訳) アシスタントAIエージェントは、新しいスキルを迅速に獲得し、新しいユーザー好みに適応できるべきである。
模倣学習や強化学習のような伝統的なフレームワークは、低レベルで非効率なコミュニケーション形式のみをサポートするため、この機能を促進できない。
対照的に、人間は抽象的な意図を定義し共有することで進歩的効率とコミュニケーションする。
AIエージェントで同様の能力を再現し、通信効率対話学習(CEIL)という新しい学習フレームワークを開発する。
学習エージェントに抽象的でダイナミックな言語と、最小限のコミュニケーション努力で学習する本質的なモチベーションを装備することにより、CEILは学習者と教師がより抽象的な意図を交換することで、より効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILは、長期の意思決定タスクを備えた2D MineCraftドメイン上で、素晴らしいパフォーマンスと通信効率を示す。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、教師との対話数が同じであれば、非階層的および階層的模倣学習を最大50%、絶対成功率20%で上回った。
特に,本フレームワークは,人的実践的なコミュニケーション行動の後にモデル化された教師と活発に機能する。 Assistant AI agents should be capable of rapidly acquiring novel skills and adapting to new user preferences. Traditional frameworks like imitation learning and reinforcement learning do not facilitate this capability because they support only low-level, inefficient forms of communication. In contrast, humans communicate with progressive efficiency by defining and sharing abstract intentions. Reproducing similar capability in AI agents, we develop a novel learning framework named Communication-Efficient Interactive Learning (CEIL). By equipping a learning agent with an abstract, dynamic language and an intrinsic motivation to learn with minimal communication effort, CEIL leads to emergence of a human-like pattern where the learner and the teacher communicate progressively efficiently by exchanging increasingly more abstract intentions. CEIL demonstrates impressive performance and communication efficiency on a 2D MineCraft domain featuring long-horizon decision-making tasks. Agents trained with CEIL quickly master new tasks, outperforming non-hierarchical and hierarchical imitation learning by up to 50% and 20% in absolute success rate, respectively, given the same number of interactions with the teacher. Especially, the framework performs robustly with teachers modeled after human pragmatic communication behavior. | 翻訳日:2023-10-29 16:09:32 公開日:2023-10-13 |
# LLM使用指導とインタラクション方略が学習者パフォーマンスと知覚に及ぼす影響 Impact of Guidance and Interaction Strategies for LLM Use on Learner Performance and Perception ( http://arxiv.org/abs/2310.13712v1 ) ライセンス: Link先を確認 | Harsh Kumar, Ilya Musabirov, Mohi Reza, Jiakai Shi, Anastasia Kuzminykh, Joseph Jay Williams, Michael Liut | (参考訳) 個人化されたチャットボットベースの指導アシスタントは、特に直接教師の存在が限られている教室の大きさの増大に対処するために不可欠である。
大規模言語モデル(llm)は有望な道のりを提供し、教育の有用性を探求する研究が増えている。
しかし、この課題は、LLMの有効性を確立するだけでなく、学習者とこれらのモデル間の相互作用のニュアンスを認識し、学習者のエンゲージメントと結果に影響を与える。
大学コンピュータサイエンス教室(N=145)とProlificの制御実験(N=356)において,4つの教育的指導方略と,学生のアプローチとLCM反応の相互作用について検討した。
直接LLMは性能を極端に改善し、学生ソリューションの精錬は信頼性を高めた。
以上の結果から, 学生のインプットの回答や修正において, LLMが果たした役割と指導の微妙な関係が示唆された。
本研究は,学習者とLLMの相互作用を最適化するための設計勧告である。 Personalized chatbot-based teaching assistants can be crucial in addressing increasing classroom sizes, especially where direct teacher presence is limited. Large language models (LLMs) offer a promising avenue, with increasing research exploring their educational utility. However, the challenge lies not only in establishing the efficacy of LLMs but also in discerning the nuances of interaction between learners and these models, which impact learners' engagement and results. We conducted a formative study in an undergraduate computer science classroom (N=145) and a controlled experiment on Prolific (N=356) to explore the impact of four pedagogically informed guidance strategies and the interaction between student approaches and LLM responses. Direct LLM answers marginally improved performance, while refining student solutions fostered trust. Our findings suggest a nuanced relationship between the guidance provided and LLM's role in either answering or refining student input. Based on our findings, we provide design recommendations for optimizing learner-LLM interactions. | 翻訳日:2023-10-29 15:56:43 公開日:2023-10-13 |
# サードパーティJava依存の自動特殊化 Automatic Specialization of Third-Party Java Dependencies ( http://arxiv.org/abs/2302.08370v2 ) ライセンス: Link先を確認 | C\'esar Soto-Valero and Deepika Tiwari and Tim Toady and Benoit Baudry | (参考訳) 大規模なコードの再利用は、開発コストと時間の両方を大幅に削減します。
しかし、ソフトウェアプロジェクトにおけるサードパーティコードの膨大なシェアは、特にメンテナンスとセキュリティに関して、新たな課題をもたらす。
本稿では,実際の利用状況に基づいて,Javaプロジェクトの依存関係を専門化する新しい手法を提案する。
プロジェクトとその依存関係が与えられたら、プロジェクトを構築するのに必要な依存関係のサブセットを体系的に識別し、残りを削除します。
このプロセスの結果、それぞれの特別な依存関係をjarファイルにパッケージ化しました。
そして、元の依存関係を特別なバージョンに置き換える特別な依存関係ツリーを生成します。
これにより、オリジナルのものよりもはるかに少ないサードパーティコードでプロジェクトを構築することができる。
その結果、最適化コンパイラツールチェーンの一時的なアーティファクトではなく、特別な依存関係がソフトウェアサプライチェーンの第一級の概念になる。
このテクニックをdeptrimというツールで実装し、30の著名なオープンソースjavaプロジェクトで評価しました。
DepTrimは、これらのプロジェクト全体で合計343(86.6%)の依存関係を専門とし、それぞれのプロジェクトを特別な依存性ツリーで再構築することに成功した。
さらに、この特殊化によって、依存性から57,444 (42.2%) のクラスを削除し、依存性クラスとプロジェクトクラスの比率を、初期プロジェクトの8.7倍から特殊化後の5.0倍に引き下げた。
これらの新たな結果は、依存性の特殊化がJavaプロジェクトにおけるサードパーティコードのシェアを大幅に減少させることを示している。 Large-scale code reuse significantly reduces both development costs and time. However, the massive share of third-party code in software projects poses new challenges, especially in terms of maintenance and security. In this paper, we propose a novel technique to specialize dependencies of Java projects, based on their actual usage. Given a project and its dependencies, we systematically identify the subset of each dependency that is necessary to build the project, and we remove the rest. As a result of this process, we package each specialized dependency in a JAR file. Then, we generate specialized dependency trees where the original dependencies are replaced by the specialized versions. This allows building the project with significantly less third-party code than the original. As a result, the specialized dependencies become a first-class concept in the software supply chain, rather than a transient artifact in an optimizing compiler toolchain. We implement our technique in a tool called DepTrim, which we evaluate with 30 notable open-source Java projects. DepTrim specializes a total of 343 (86.6%) dependencies across these projects, and successfully rebuilds each project with a specialized dependency tree. Moreover, through this specialization, DepTrim removes a total of 57,444 (42.2%) classes from the dependencies, reducing the ratio of dependency classes to project classes from 8.7x in the original projects to 5.0x after specialization. These novel results indicate that dependency specialization significantly reduces the share of third-party code in Java projects. | 翻訳日:2023-10-24 13:15:48 公開日:2023-10-13 |
# AI時代の静的コード分析:インテリジェントコード分析エージェントの概念・機能・可能性の詳細な探索 Static Code Analysis in the AI Era: An In-depth Exploration of the Concept, Function, and Potential of Intelligent Code Analysis Agents ( http://arxiv.org/abs/2310.08837v1 ) ライセンス: Link先を確認 | Gang Fan, Xiaoheng Xie, Xunjin Zheng, Yinan Liang, Peng Di | (参考訳) ソフトウェアシステムの複雑さの増大と開発サイクルの加速は、コードエラーの管理とビジネスロジックの実装において大きな課題となる。
従来のテクニックは、ソフトウェアの品質保証の基盤となっているが、複雑なビジネスロジックと広範なコードベースを扱う際に制限がある。
これらの課題に対処するために、AIモデル、エンジニアリングプロセス設計、従来の非AIコンポーネントを組み合わせた新しい概念である、Intelligent Code Analysis Agent(ICAA)を紹介する。
ICAAは、GPT-3やGPT-4のような大きな言語モデル(LLM)を使用して、コードエラーやビジネスロジックの不整合を自動的に検出し、診断する。
この概念の探索では, バグ検出精度が大幅に向上し, 基準値85\%から偽陽性率66\%, 有望なリコール率60.8\%に低下した。
しかし、LLMに関連するトークン消費コスト、特にコードの各行を解析する平均コストは、広く普及する上で重要な考慮事項である。
この課題にもかかわらず、ICAAはソフトウェア品質保証に革命をもたらす可能性があり、ソフトウェア開発プロセスにおけるバグ検出の効率と正確性を大幅に向上させる可能性が示唆されている。
この先駆的な取り組みが、ICAAのコンセプトを洗練し、関連するコストを軽減する方法を模索し、この分野のさらなる研究とイノベーションを刺激することを期待しています。 The escalating complexity of software systems and accelerating development cycles pose a significant challenge in managing code errors and implementing business logic. Traditional techniques, while cornerstone for software quality assurance, exhibit limitations in handling intricate business logic and extensive codebases. To address these challenges, we introduce the Intelligent Code Analysis Agent (ICAA), a novel concept combining AI models, engineering process designs, and traditional non-AI components. The ICAA employs the capabilities of large language models (LLMs) such as GPT-3 or GPT-4 to automatically detect and diagnose code errors and business logic inconsistencies. In our exploration of this concept, we observed a substantial improvement in bug detection accuracy, reducing the false-positive rate to 66\% from the baseline's 85\%, and a promising recall rate of 60.8\%. However, the token consumption cost associated with LLMs, particularly the average cost for analyzing each line of code, remains a significant consideration for widespread adoption. Despite this challenge, our findings suggest that the ICAA holds considerable potential to revolutionize software quality assurance, significantly enhancing the efficiency and accuracy of bug detection in the software development process. We hope this pioneering work will inspire further research and innovation in this field, focusing on refining the ICAA concept and exploring ways to mitigate the associated costs. | 翻訳日:2023-10-23 02:53:23 公開日:2023-10-13 |
# HotStuffプロトコルファミリーのライブチェック Liveness Checking of the HotStuff Protocol Family ( http://arxiv.org/abs/2310.09006v1 ) ライセンス: Link先を確認 | J\'er\'emie Decouchant, Burcu Kulahcioglu Ozkan, Yanzhuo Zhou | (参考訳) ビザンチン合意プロトコルは、任意のネットワーク同期モデルの下での安全性保証の維持と、部分的または完全同期ネットワークにおける生存性の提供を目的としている。
しかし、いくつかのビザンチンのコンセンサスプロトコルは、特定のシナリオで生存特性に違反することが示されている。
既存のコンセンサスプロトコルのライブ性をチェックするテスト手法では、時間境界のライブ性違反をチェックし、多数の偽陽性を発生させる。
そこで本研究では,アドホックなシステム状態抽象化の定義を必要とする温度およびラッソ検出手法を用いて,ビザンチンコンセンサスプロトコルの寿命を初めて確認する。
ブロックチェーンコンセンサスのために最近開発されたhotstuffプロトコルファミリにフォーカスしています。
このファミリーでは、ホットスタフプロトコルは安全であり、部分同期の前提下では生存するが、2相ホットスタフプロトコルと同期ホットスタフプロトコルは微妙な障害シナリオで生存を損なうことが知られている。
我々は、hotstuffプロトコルファミリをテストするために、twins自動ユニットテストジェネレータ上にライブネスチェックメソッドを実装しました。
以上の結果から,本手法は既知のライブネス違反の検出に成功し,従来のタイムバウンドライブネスチェックよりも偽陽性率が少なくなることが示唆された。 Byzantine consensus protocols aim at maintaining safety guarantees under any network synchrony model and at providing liveness in partially or fully synchronous networks. However, several Byzantine consensus protocols have been shown to violate liveness properties under certain scenarios. Existing testing methods for checking the liveness of consensus protocols check for time-bounded liveness violations, which generate a large number of false positives. In this work, for the first time, we check the liveness of Byzantine consensus protocols using the temperature and lasso detection methods, which require the definition of ad-hoc system state abstractions. We focus on the HotStuff protocol family that has been recently developed for blockchain consensus. In this family, the HotStuff protocol is both safe and live under the partial synchrony assumption, while the 2-Phase Hotstuff and Sync HotStuff protocols are known to violate liveness in subtle fault scenarios. We implemented our liveness checking methods on top of the Twins automated unit test generator to test the HotStuff protocol family. Our results indicate that our methods successfully detect all known liveness violations and produce fewer false positives than the traditional time-bounded liveness checks. | 翻訳日:2023-10-23 02:39:55 公開日:2023-10-13 |
# DevSecOpsにおけるIEC 62443-4-2要件の質的検証 Qualitative Analysis for Validating IEC 62443-4-2 Requirements in DevSecOps ( http://arxiv.org/abs/2310.08996v1 ) ライセンス: Link先を確認 | Christian G\"ottel, Ma\"elle Kabir-Querrec, David Kozhaya, Thanikesavan Sivanthi, Ognjen Vukovi\'c | (参考訳) 産業オートメーションと制御システムのサイバーセキュリティ標準に準拠した検証は、市場投入時間を遅らせるコストと時間を要するプロセスである。
したがって、製品の継続的インテグレーション/継続的デリバリパイプラインに適合性検証ステージを導入することが重要です。
しかしながら、そのような適合性検証を自動で設計することは、専門家の知識を必要とし、利用可能なセキュリティツール、DevOpsパイプラインへの統合の容易性、ITとOTインターフェースとプロトコルのサポートに依存する、非常に簡単な作業である。
本稿では、ISA/IEC 62443-4-2の標準コンポーネント要件の自動検証に焦点をあてる。
我々は、検証を行うための標準要件と現在のツーリングの展望を広範囲に定性的に分析する。
我々の分析は、現在利用可能なツールによって確立されたカバレッジを示し、完全な自動化とカバレッジを達成するための現在のギャップを浮き彫りにする。
さらに、CI/CDパイプラインの段階でテストすることが推奨されるすべてのコンポーネント要件と、それを行うツールを紹介します。 Validation of conformance to cybersecurity standards for industrial automation and control systems is an expensive and time consuming process which can delay the time to market. It is therefore crucial to introduce conformance validation stages into the continuous integration/continuous delivery pipeline of products. However, designing such conformance validation in an automated fashion is a highly non-trivial task that requires expert knowledge and depends upon the available security tools, ease of integration into the DevOps pipeline, as well as support for IT and OT interfaces and protocols. This paper addresses the aforementioned problem focusing on the automated validation of ISA/IEC 62443-4-2 standard component requirements. We present an extensive qualitative analysis of the standard requirements and the current tooling landscape to perform validation. Our analysis demonstrates the coverage established by the currently available tools and sheds light on current gaps to achieve full automation and coverage. Furthermore, we showcase for every component requirement where in the CI/CD pipeline stage it is recommended to test it and the tools to do so. | 翻訳日:2023-10-23 02:39:34 公開日:2023-10-13 |
# ソフトウェア工学における大規模言語モデルの批判的レビュー:ChatGPTと自動プログラム修復の例 A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair ( http://arxiv.org/abs/2310.08879v1 ) ライセンス: Link先を確認 | Quanjun Zhang, Tongke Zhang, Juan Zhai, Chunrong Fang, Bowen Yu, Weisong Sun, Zhenyu Chen | (参考訳) 大規模言語モデル(LLM)は注目を集めており、自動プログラム修復(APR)、コードの要約、コード補完など、様々なソフトウェア工学(SE)タスクで有望なパフォーマンスを示している。
例えば、最新のブラックボックスLSMであるChatGPTは、近年多くの研究によって研究されており、様々なタスクにおいて顕著な性能を示している。
しかし、これらのllmは通常、事前トレーニングされたデータセットなど、特定のトレーニング詳細が不明なクローズソースであるため、データ漏洩の潜在的なリスクがある。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで検討する。
まず最初に,chatgptのトレーニングカットオフポイントの後,2023年からの競争的プログラミング問題からバギーと対応する固定プログラムを備えたベンチマークである {\benchmark} を導入する。
以上の結果から,ChatGPTは35ラウンド以内の基本的なプロンプトを用いて,バグジプログラム151件中109件を修正可能であり,最先端のLLM CodeT5とPLBARTを27.5\%,予測精度62.4\%で上回った。
また,問題記述,エラーフィードバック,バグローカライズという3種類のプロンプトの影響を調査し,さらに34のバグが修正された。
さらに、ChatGPTのインタラクティブな性質から、9つの追加バグを伴うダイアログベースの修復ワークフローの能力について、さらに議論する。
これらの知見に触発されて、我々は近い将来、このようなLSM(例えば、ChatGPT)を備えた先進的なSE研究の課題と機会を見極める。
さらに重要なのは,既存の black-box llm が apr 上の chatgpt に限らず,さまざまな se タスクにまたがって達成した成果の再評価に関するさらなる研究が必要だということです。 Large Language Models (LLMs) have been gaining increasing attention and demonstrated promising performance across a variety of Software Engineering (SE) tasks, such as Automated Program Repair (APR), code summarization, and code completion. For example, ChatGPT, the latest black-box LLM, has been investigated by numerous recent research studies and has shown impressive performance in various tasks. However, there exists a potential risk of data leakage since these LLMs are usually close-sourced with unknown specific training details, e.g., pre-training datasets. In this paper, we seek to review the bug-fixing capabilities of ChatGPT on a clean APR benchmark with different research objectives. We first introduce {\benchmark}, a new benchmark with buggy and the corresponding fixed programs from competitive programming problems starting from 2023, after the training cutoff point of ChatGPT. The results on {\benchmark} show that ChatGPT is able to fix 109 out of 151 buggy programs using the basic prompt within 35 independent rounds, outperforming state-of-the-art LLMs CodeT5 and PLBART by 27.5\% and 62.4\% prediction accuracy. We also investigate the impact of three types of prompts, i.e., problem description, error feedback, and bug localization, leading to additional 34 fixed bugs. Besides, we provide additional discussion from the interactive nature of ChatGPT to illustrate the capacity of a dialog-based repair workflow with 9 additional fixed bugs. Inspired by the findings, we further pinpoint various challenges and opportunities for advanced SE study equipped with such LLMs (e.g.,~ChatGPT) in the near future. More importantly, our work calls for more research on the reevaluation of the achievements obtained by existing black-box LLMs across various SE tasks, not limited to ChatGPT on APR. | 翻訳日:2023-10-23 02:39:15 公開日:2023-10-13 |
# baitbuster-bangla:多機能マルチモーダル解析によるバングラのクリックベイト検出のための総合データセット BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis ( http://arxiv.org/abs/2310.11465v1 ) ライセンス: Link先を確認 | Abdullah Al Imran, Md Sakib Hossain Shovon, M. F. Mridha | (参考訳) 本研究では,youtube apiとpython web automationフレームワークを用いて,自動化プロセスを通じて収集された253,070のデータポイントからなる,大規模なマルチモーダルyoutubeクリックベイトデータセットを提案する。
データセットにはメタデータ、プライマリコンテンツ、エンゲージメント統計、58のyoutubeチャンネルの個別ビデオのラベルに分類された18の多様な機能が含まれている。
厳密な事前処理ステップは、特徴からバイアスを取り除き、偏りなく信頼性の高い分析を確実にするために適用されている。
これまでバングラで最大かつ最も堅牢なクリックベイトコーパスとして、このデータセットは、低リソース言語におけるクリックベイト現象のモデリングを前進させようとする自然言語処理およびデータサイエンス研究者にとって、重要な価値を提供する。
そのマルチモーダルな性質により、コンテンツ、ユーザインタラクション、言語次元にわたるクリックベイトを包括的に分析し、クロス言語的応用によるより洗練された検出方法を開発することができる。 This study presents a large multi-modal Bangla YouTube clickbait dataset consisting of 253,070 data points collected through an automated process using the YouTube API and Python web automation frameworks. The dataset contains 18 diverse features categorized into metadata, primary content, engagement statistics, and labels for individual videos from 58 Bangla YouTube channels. A rigorous preprocessing step has been applied to denoise, deduplicate, and remove bias from the features, ensuring unbiased and reliable analysis. As the largest and most robust clickbait corpus in Bangla to date, this dataset provides significant value for natural language processing and data science researchers seeking to advance modeling of clickbait phenomena in low-resource languages. Its multi-modal nature allows for comprehensive analyses of clickbait across content, user interactions, and linguistic dimensions to develop more sophisticated detection methods with cross-linguistic applications. | 翻訳日:2023-10-23 02:10:07 公開日:2023-10-13 |
# redがmind readingと組む: rlエージェントに対するホワイトボックスの敵対的ポリシー Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents ( http://arxiv.org/abs/2209.02167v3 ) ライセンス: Link先を確認 | Stephen Casper, Taylor Killian, Gabriel Kreiman, Dylan Hadfield-Menell | (参考訳) 敵の例は、デプロイ前にAIシステムの脆弱性を特定するのに役立つ。
強化学習(RL)では、敵エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することにより、敵ポリシーを開発することができる。
先行研究はこれらの攻撃のブラックボックス版を研究しており、敵は世界状態のみを観察し、ターゲットエージェントを環境の他の部分として扱う。
しかし、これは問題における追加的な構造を考慮に入れていない。
本研究では,ホワイトボックスの敵政策を調査し,ターゲットエージェントの内部状態へのアクセスが脆弱性の特定に有用であることを示す。
我々は2つの貢献をした。
1)攻撃者が各タイミングで標的の内的状態と世界的状態の両方を観察するホワイトボックスの敵ポリシーを導入する。
2プレイヤーゲームおよびテキスト生成言語モデルにおけるエージェント攻撃にこれらのポリシーを使用する方法を定式化する。
2)これらのポリシーはブラックボックス制御よりもターゲットエージェントに対する初期的および漸近的性能を向上できることを示す。
コードはhttps://github.com/thestephencasper/lm_white_box_attacksで入手できる。 Adversarial examples can be useful for identifying vulnerabilities in AI systems before they are deployed. In reinforcement learning (RL), adversarial policies can be developed by training an adversarial agent to minimize a target agent's rewards. Prior work has studied black-box versions of these attacks where the adversary only observes the world state and treats the target agent as any other part of the environment. However, this does not take into account additional structure in the problem. In this work, we study white-box adversarial policies and show that having access to a target agent's internal state can be useful for identifying its vulnerabilities. We make two contributions. (1) We introduce white-box adversarial policies where an attacker observes both a target's internal state and the world state at each timestep. We formulate ways of using these policies to attack agents in 2-player games and text-generating language models. (2) We demonstrate that these policies can achieve higher initial and asymptotic performance against a target agent than black-box controls. Code is available at https://github.com/thestephencasper/lm_white_box_attacks | 翻訳日:2023-10-18 07:00:41 公開日:2023-10-13 |
# POMDPの粒子信念近似のための最適保証 Optimality Guarantees for Particle Belief Approximation of POMDPs ( http://arxiv.org/abs/2210.05015v4 ) ライセンス: Link先を確認 | Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J. Tomlin, Zachary N. Sunberg | (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。
観測可能性重み付けを計画した最近のオンラインサンプリングベースPOMDPアルゴリズムは実用的効果を示したが、これらのアルゴリズムが以前提案しなかった粒子フィルタリング手法の近似誤差を特徴付ける一般理論が提案されている。
我々の主な貢献は、任意のPOMDPとその対応する有限サンプル粒子信念 MDP (PB-MDP) 近似の誤差の境界である。
PB-MDP と POMDP の基本的なブリッジにより,対応する粒子信念 MDP を解くことで,サンプリングベースの MDP アルゴリズムを POMDP に適用し,MDP アルゴリズムの収束保証を POMDP に拡張することができる。
実際に, MDPソルバの生成モデルとして, 粒子フィルタの信念遷移モデルを用いてこれを実装した。
これは pomdp からの観測密度モデルへのアクセスを必要とするが、mdp ソルバの遷移サンプリング複雑性を $\mathcal{o}(c)$ で増加させるだけであり、ここで $c$ は粒子の数である。
したがって、スパースサンプリングMDPアルゴリズムと組み合わせることで、状態と観測空間のサイズに直接的な理論的依存を持たないPOMDPのアルゴリズムが得られる。
pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。 Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers. | 翻訳日:2023-10-18 06:50:33 公開日:2023-10-13 |
# 非エルミートスピンチェーンのスペクトルクロスオーバー:ランダム行列理論との比較 Spectral crossover in non-hermitian spin chains: comparison with random matrix theory ( http://arxiv.org/abs/2302.01423v3 ) ライセンス: Link先を確認 | Ayana Sarkar, Sunidhi Sen and Santosh Kumar | (参考訳) 複素間隔比を用いた3つの非エルミートスピンチェーンハミルトニアンの短距離スペクトル揺らぎ特性を体系的に研究した。
特に、Zhang と Song が [Phys.Rev.A {\bf 87}, 012114 (2013)] で解析的に探求した固有回転時間逆数 ("\mathcal{RT}$) 対称性を持つ標準一次元異方性XYモデルの非エルミートバージョンに焦点を当てる。
対応するヘミチアンも正確に解けており、いくつかの凝縮物質物理学問題において玩具モデルとして広く用いられている。
x$-direction に沿った確率場の存在と、z$ に沿った確率場の存在は、可積分性および $\mathcal{rt}$-symmetry breaking が促進され、ポアソニアンからジニブルユニタリアンサンブル(ginue)のランダム行列論の統計に類似したスペクトルクロスオーバーによって示される量子カオス的振る舞いが出現することを示している。
さらに,2つの$n \times n$ dimensional phenomenological random matrix modelを考えると,交叉パラメータによって,複素スペーシング比によって測定される変動特性は,GinUEの1D-PoissonとGinUEの2D-Poissonとの補間を示す。
ここで 1d と 2d poisson はそれぞれ実数レベルと複素非相関レベルに対応している。 We systematically study the short range spectral fluctuation properties of three non-hermitian spin chain hamiltonians using complex spacing ratios. In particular we focus on the non-hermitian version of the standard one-dimensional anisotropic XY model having intrinsic rotation-time-reversal ($\mathcal{RT}$) symmetry that has been explored analytically by Zhang and Song in [Phys.Rev.A {\bf 87}, 012114 (2013)]. The corresponding hermitian counterpart is also exactly solvable and has been widely employed as a toy model in several condensed matter physics problems. We show that the presence of a random field along the $x$-direction together with the one along $z$ facilitates integrability and $\mathcal{RT}$-symmetry breaking leading to the emergence of quantum chaotic behaviour indicated by a spectral crossover resembling Poissonian to Ginibre unitary ensemble (GinUE) statistics of random matrix theory. Additionally, we consider two $n \times n$ dimensional phenomenological random matrix models in which, depending upon crossover parameters, the fluctuation properties measured by the complex spacing ratios show an interpolation between 1D-Poisson to GinUE and 2D-Poisson to GinUE behaviour. Here 1D and 2D Poisson correspond to real and complex uncorrelated levels, respectively. | 翻訳日:2023-10-18 06:20:52 公開日:2023-10-13 |
# リッジレス線形回帰のスケッチ:ダウンサンプリングの役割 Sketched Ridgeless Linear Regression: The Role of Downsampling ( http://arxiv.org/abs/2302.01088v2 ) ライセンス: Link先を確認 | Xin Chen, Yicheng Zeng, Siyue Yang, Qiang Sun | (参考訳) オーバーパラメトリゼーションは、しばしば一般化性能を改善するのに役立つ。
本稿では, オーバーパラメトリゼーションの双対的視点から, ダウンサンプリングが一般化の助けとなることを示唆する。
m$ はスケッチサイズを表し、$n$ はサンプルサイズ、$p$ は特徴次元を表す比例構造 $m\asymp n \asymp p$ に焦点を当て、スケッチされたリッジレス最小二乗推定器の2つの予想外予測リスクを調査した。
本研究は, ダウンサンプリングが必ずしも一般化を損なうものではなく, 実際に改善できることを示すことによって, 従来の信念に挑戦するものである。
提案手法では,推定リスクを最小化する最適スケッチサイズを特定し,最適スケッチ推定器がより安定なリスク曲線を示し,全サンプル推定器のピークをなくすことを実証する。
そこで本研究では,最適なスケッチサイズを決定するための経験的手法を提案する。
最後に、我々は解析を拡張し、中心極限定理と不特定モデルをカバーする。
数値的研究は我々の理論を強く支持している。 Overparametrization often helps improve the generalization performance. This paper presents a dual view of overparametrization suggesting that downsampling may also help generalize. Focusing on the proportional regime $m\asymp n \asymp p$, where $m$ represents the sketching size, $n$ is the sample size, and $p$ is the feature dimensionality, we investigate two out-of-sample prediction risks of the sketched ridgeless least square estimator. Our findings challenge conventional beliefs by showing that downsampling does not always harm generalization but can actually improve it in certain cases. We identify the optimal sketching size that minimizes out-of-sample prediction risks and demonstrate that the optimally sketched estimator exhibits stabler risk curves, eliminating the peaks of those for the full-sample estimator. To facilitate practical implementation, we propose an empirical procedure to determine the optimal sketching size. Finally, we extend our analysis to cover central limit theorems and misspecified models. Numerical studies strongly support our theory. | 翻訳日:2023-10-18 06:20:16 公開日:2023-10-13 |
# XLM-V:多言語マスク言語モデルにおける語彙ボトルネックの克服 XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models ( http://arxiv.org/abs/2301.10472v2 ) ライセンス: Link先を確認 | Davis Liang, Hila Gonen, Yuning Mao, Rui Hou, Naman Goyal, Marjan Ghazvininejad, Luke Zettlemoyer, Madian Khabsa | (参考訳) 大規模な多言語モデルは通常、100以上の言語で共有される単一の語彙に依存する。
これらのモデルがパラメータ数と深さを増加させるにつれて、語彙のサイズはほとんど変わっていない。
この \textit{vocabulary bottleneck} は XLM-R のような多言語モデルの表現能力を制限する。
本稿では,語彙重複の少ない言語間でのトークン共有を非強調し,各言語に十分なカバレッジを達成するために語彙容量を割り当てることで,非常に大きな多言語語彙にスケールする新しい手法を提案する。
我々の語彙を用いたトークン化は、通常、XLM-Rよりも意味的に意味があり、短い。
この改良された語彙を活用して、100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-Vは、自然言語推論(XNLI)、質問応答(MLQA、XQuAD、TyDiQA)、名前付きエンティティ認識(WikiAnn)など、テストしたタスクごとにXLM-Rより優れています。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。 Large multilingual language models typically rely on a single vocabulary shared across 100+ languages. As these models have increased in parameter count and depth, vocabulary size has remained largely unchanged. This \textit{vocabulary bottleneck} limits the representational capabilities of multilingual models like XLM-R. In this paper, we introduce a new approach for scaling to very large multilingual vocabularies by de-emphasizing token sharing between languages with little lexical overlap and assigning vocabulary capacity to achieve sufficient coverage for each individual language. Tokenizations using our vocabulary are typically more semantically meaningful and shorter compared to XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual language model with a one million token vocabulary. XLM-V outperforms XLM-R on every task we tested on ranging from natural language inference (XNLI), question answering (MLQA, XQuAD, TyDiQA), to named entity recognition (WikiAnn). XLM-V is particularly effective on low-resource language tasks and outperforms XLM-R by 11.2% and 5.8% absolute on MasakhaNER and Americas NLI, respectively. | 翻訳日:2023-10-18 06:18:45 公開日:2023-10-13 |
# 測定後の1次元臨界状態における絡み合い Entanglement in one-dimensional critical state after measurements ( http://arxiv.org/abs/2301.08255v2 ) ライセンス: Link先を確認 | Zhou Yang and Dan Mao and Chao-Ming Jian | (参考訳) 一次元ハミルトニアン臨界状態の基底状態の絡み合いエントロピー(EE)は、基礎となる 1+1d の共形場理論の中心電荷$c$ で与えられるプレファクタによる普遍対数スケーリングを持つ。
測定によりシステムが調査されると、波動関数の崩壊により臨界基底状態の絡み合いが必然的に影響を受ける。
本論文では, 1次元臨界横場イジングモデルの基底状態におけるエンタングルメントスケーリングに対する弱い測定の影響について検討する。
横軸に沿ったスピンの測定では,空間的に均一な測定結果に関連する興味深い測定後状態を特定する。
これらの州のeeは依然として対数スケーリングに満足しているが、有効な中央電荷 $c_{\text{eff}}$ によって与えられる別の前提因子がある。
測定強度の関数として,$c_{\text{eff}}$の解析式を導出する。
数値シミュレーションにより,本手法では,局所的および非重複的測定がシステムの絡み合いを減少させるという通常の期待とは対照的に,本手法で抽出した有効中心電荷は測定強度とは独立にみられた。
また,測定結果をサイト間相関を伴わない事前決定された確率分布でサンプリングする(バイアス付き)平均脳波の挙動についても検討した。
特に、ボルン-ルール確率に対する平均場近似として機能し、同じ$c_{\text{eff}}$ の振る舞いをもたらす最適な確率分布を見つける。
また, 縦軸に沿った測定値と後相関関数の影響についても検討した。 The entanglement entropy (EE) of the ground state of a one-dimensional Hamiltonian at criticality has a universal logarithmic scaling with a prefactor given by the central charge $c$ of the underlying 1+1d conformal field theory. When the system is probed by measurements, the entanglement in the critical ground state is inevitably affected due to wavefunction collapse. In this paper, we study the effect of weak measurements on the entanglement scaling in the ground state of the one-dimensional critical transverse-field Ising model. For the measurements of the spins along their transverse spin axis, we identify interesting post-measurement states associated with spatially uniform measurement outcomes. The EE in these states still satisfies the logarithmic scaling but with an alternative prefactor given by the effective central charge $c_{\text{eff}}$. We derive the analytical expression of $c_{\text{eff}}$ as a function of the measurement strength. Using numerical simulations, we show that for the EE averaged over all post-measurement states based on their Born-rule probabilities, the numerically extracted effective central charge appears to be independent of the measurement strength, contrary to the usual expectation that local and non-overlapping measurements reduce the entanglement in the system. We also examine the behavior of the average EE under (biased) forced measurements where the measurement outcomes are sampled with a pre-determined probability distribution without inter-site correlations. In particular, we find an optimal probability distribution that can serve as a mean-field approximation to the Born-rule probabilities and lead to the same $c_{\text{eff}}$ behavior. The effects of the measurements along the longitudinal spin axis and the post-measurement correlation functions are also discussed. | 翻訳日:2023-10-18 06:18:03 公開日:2023-10-13 |
# ループ付非循環的概要因果グラフによる時系列集合異常の根本原因同定 Root Cause Identification for Collective Anomalies in Time Series given an Acyclic Summary Causal Graph with Loops ( http://arxiv.org/abs/2303.04038v2 ) ライセンス: Link先を確認 | Charles K. Assaad, Imad Ez-zejjari and Lei Zan | (参考訳) 本稿では,観測時系列に与えられた集団的異常の根本原因を同定する手法と,その正規状態における動的系に存在する因果関係の抽象化を記述した非循環的要約因果グラフを提案する。
本論文は,まず,d-分離を用いた関連異常をグループ化することにより,根原因同定の問題を多数の独立部分問題に分割する方法を示した。
さらに、この設定の下では、いくつかの根本原因がグラフから直接、および異常の出現時から発見できることを示す。
最後に、正常と異常な状態における直接的な効果を比較することで、根の他の原因がどのように見出されるかを示す。
この目的のために、直接効果を特定するための調整セットを導入する。
シミュレーションデータセットと実世界データセットの両方で広範な実験を行い,提案手法の有効性を実証した。 This paper presents an approach for identifying the root causes of collective anomalies given observational time series and an acyclic summary causal graph which depicts an abstraction of causal relations present in a dynamic system at its normal regime. The paper first shows how the problem of root cause identification can be divided into many independent subproblems by grouping related anomalies using d-separation. Further, it shows how, under this setting, some root causes can be found directly from the graph and from the time of appearance of anomalies. Finally, it shows, how the rest of the root causes can be found by comparing direct effects in the normal and in the anomalous regime. To this end, an adjustment set for identifying direct effects is introduced. Extensive experiments conducted on both simulated and real-world datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2023-10-18 05:59:47 公開日:2023-10-13 |
# 拡散モデルを用いた境界案内学習自由意味制御 Boundary Guided Learning-Free Semantic Control with Diffusion Models ( http://arxiv.org/abs/2302.08357v2 ) ライセンス: Link先を確認 | Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan | (参考訳) 画像意味編集のような下流タスクに予め訓練された生成的分別拡散モデル(ddm)を適用するには、通常、既存の文献において微調整されたddmまたは補助編集ネットワークの学習が必要となる。
本研究では,フリーズドトレーニングDDMを用いた効率的な,効率的かつ軽量なセマンティック制御のための境界拡散法を提案する。
最初の学習自由拡散編集作業として、マルコフ連鎖における確率的および幾何学的挙動を理論的かつ実験的に解析することにより、中間高次元潜在空間の包括的理解を求めることから始める。
そこで本研究では,事前学習されたddmの収束を特徴付けるデノイジング軌道における編集のクリティカルステップをさらに探究し,自動探索法を提案する。
最後に、DDMが比較的貧弱な意味的振る舞いを持つという従来の理解とは対照的に、我々が発見した臨界潜在空間は、無条件DDMの一般的なレベルで意味的部分空間境界をすでに示しており、単一ステップの操作によって目標境界への指示軌道を誘導することで制御可能な操作を可能にする。
我々は,複数のDPMアーキテクチャ (DDPM, iDDPM) とデータセット (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) の様々な解像度 (64, 256) を用いて,様々なタスクシナリオ(画像セマンティック編集,テキストベース編集,非条件セマンティック制御) において,優れた,あるいは最先端のパフォーマンスを実現し,その効果を示す。 Applying pre-trained generative denoising diffusion models (DDMs) for downstream tasks such as image semantic editing usually requires either fine-tuning DDMs or learning auxiliary editing networks in the existing literature. In this work, we present our BoundaryDiffusion method for efficient, effective and light-weight semantic control with frozen pre-trained DDMs, without learning any extra networks. As one of the first learning-free diffusion editing works, we start by seeking a comprehensive understanding of the intermediate high-dimensional latent spaces by theoretically and empirically analyzing their probabilistic and geometric behaviors in the Markov chain. We then propose to further explore the critical step for editing in the denoising trajectory that characterizes the convergence of a pre-trained DDM and introduce an automatic search method. Last but not least, in contrast to the conventional understanding that DDMs have relatively poor semantic behaviors, we prove that the critical latent space we found already exhibits semantic subspace boundaries at the generic level in unconditional DDMs, which allows us to do controllable manipulation by guiding the denoising trajectory towards the targeted boundary via a single-step operation. We conduct extensive experiments on multiple DPMs architectures (DDPM, iDDPM) and datasets (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64, 256), achieving superior or state-of-the-art performance in various task scenarios (image semantic editing, text-based editing, unconditional semantic control) to demonstrate the effectiveness. | 翻訳日:2023-10-18 05:57:45 公開日:2023-10-13 |
# 言語モデルにおける効果的な教師学習知識伝達のためのニューラルネットワーク探索 Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models ( http://arxiv.org/abs/2303.09639v2 ) ライセンス: Link先を確認 | Aashka Trivedi, Takuma Udagawa, Michele Merler, Rameswar Panda, Yousef El-Kurdi, Bishwaranjan Bhattacharjee | (参考訳) 大規模な事前訓練された言語モデルは、様々な下流タスクで最先端の結果を得た。
知識蒸留(KD)を小さな学生モデルに組み込むと、その非効率性に対処し、リソースに制約のある環境への展開を可能にする。
しかしながら、KDは、学生が既存の選択肢の集合から手動で選択されるときに非効率である。
我々は,KDが指導する多言語KD-NAS(Neural Architecture Search, ニューラルアーキテクチャサーチ)を開発し,多言語教師からのタスク非依存蒸留に最適な学生アーキテクチャを求める。
探索プロセスの各エピソードにおいて、NASコントローラは、蒸留損失と推論の遅延に基づいて報酬を予測する。
最上位候補アーキテクチャは、小さなプロキシセットで教師から蒸留される。
最後に、最も報酬の高いアーキテクチャを選択し、フルトレーニングコーパスに蒸留する。
KD-NASは効率と効率を自動的にトレードオフでき、様々な遅延予算に適したアーキテクチャを推奨する。
我々のKD-NAS学生モデルは,多層型隠れ状態蒸留プロセスを用いて,XLM-Roberta Base Teacherと比較して,CPU推論の7倍の高速化を実現し,90%のパフォーマンスを維持しつつ,CPU上でのスループット,低レイテンシ,デプロイを必要とする3つのソフトウェアにデプロイされている。 Large pretrained language models have achieved state-of-the-art results on a variety of downstream tasks. Knowledge Distillation (KD) into a smaller student model addresses their inefficiency, allowing for deployment in resource-constrained environments. However, KD can be ineffective when the student is manually selected from a set of existing options, since it can be a sub-optimal choice within the space of all possible student architectures. We develop multilingual KD-NAS, the use of Neural Architecture Search (NAS) guided by KD to find the optimal student architecture for task agnostic distillation from a multilingual teacher. In each episode of the search process, a NAS controller predicts a reward based on the distillation loss and latency of inference. The top candidate architectures are then distilled from the teacher on a small proxy set. Finally the architecture(s) with the highest reward is selected, and distilled on the full training corpus. KD-NAS can automatically trade off efficiency and effectiveness, and recommends architectures suitable to various latency budgets. Using our multi-layer hidden state distillation process, our KD-NAS student model achieves a 7x speedup on CPU inference (2x on GPU) compared to a XLM-Roberta Base Teacher, while maintaining 90% performance, and has been deployed in 3 software offerings requiring large throughput, low latency and deployment on CPU. | 翻訳日:2023-10-18 05:49:41 公開日:2023-10-13 |
# 非親和性の証明としての量子トンネル Quantum tunneling as evidence of non-spatiality ( http://arxiv.org/abs/2303.08031v2 ) ライセンス: Link先を確認 | Massimiliano Sassoli de Bianchi | (参考訳) 量子トンネル現象は、古典的な粒子の挙動の概念を否定する、魅力的で謎めいた現象である。
本稿では,ハートマン効果の立場からトンネル現象の理論的考察を行い,トンネル現象はポテンシャル障壁の交差として説明できないため,トンネル現象の古典的な概念はトンネル現象中に超越されることを示した。
これは、量子トンネルは量子非局所性が量子非散逸性の側面として理解されるべきであることを強く示すことを意味する。
また、量子力学の概念性解釈によれば、非空間状態は概念的な実体の「抽象状態」として理解されるべきであり、それは波動関数の崩壊の間、それが最大の具体性に達するときのみ、我々の物理的現実の時空間層に入ることを強調する。 The phenomenon of quantum tunneling remains a fascinating and enigmatic one, defying classical notions of particle behavior. This paper presents a novel theoretical investigation of the tunneling phenomenon, from the viewpoint of Hartman effect, showing that the classical concept of spatiality is transcended during tunneling, since one cannot describe the process as a crossing of the potential barrier. This means that quantum tunneling strongly indicates that quantum non-locality should be understood as an aspect of quantum non-spatiality. It is also emphasized that according to the Conceptuality Interpretation of quantum mechanics, a non-spatial state should be understood as a `state of abstractness' of a conceptual-like entity, which only when it reaches its maximum degree of concreteness, during the wave-function collapse, can enter the spatiotemporal layer of our physical reality. | 翻訳日:2023-10-18 05:48:29 公開日:2023-10-13 |
# PCA-Netによる演算子学習--上と下の境界 Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v5 ) ライセンス: Link先を確認 | Samuel Lanthaler | (参考訳) PCA-Netは、ニューラルネットワークと主成分分析(PCA)を組み合わせて、無限次元関数空間間の近似演算子を提案する。
本研究は, 基礎となる演算子とデータ生成分布について最小限の仮定の下で, 新たな普遍近似結果が導出される。
次に、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界を通して正確にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。
もう一つの障害は、無限次元の入力空間と出力空間の間の作用素の空間の本質的な複雑さに関係しており、結果として高次元近似問題でよく知られた次元の呪いの無限次元の類似である「パラメトリックの複雑さの曲線」の厳密で定量的な記述をもたらす。
これらの下限に加えて、上述の複雑性境界が導かれる。
PCA固有値の代数的減衰を確実にするために、適切な滑らか度基準を示す。
さらに、PCA-Netは、ダーシー流とナビエ・ストークス方程式から生じる特定の興味を持つ演算子の一般的な呪いを克服できることを示した。 PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate operators between infinite-dimensional function spaces. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction: First, a novel universal approximation result is derived, under minimal assumptions on the underlying operator and the data-generating distribution. Then, two potential obstacles to efficient operator learning with PCA-Net are identified, and made precise through lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates to the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of a "curse of parametric complexity", an infinite-dimensional analogue of the well-known curse of dimensionality encountered in high-dimensional approximation problems. In addition to these lower bounds, upper complexity bounds are finally derived. A suitable smoothness criterion is shown to ensure an algebraic decay of the PCA eigenvalues. Furthermore, it is shown that PCA-Net can overcome the general curse for specific operators of interest, arising from the Darcy flow and the Navier-Stokes equations. | 翻訳日:2023-10-18 05:38:02 公開日:2023-10-13 |
# 自己回帰言語モデルにおけるファクトアソシエーションの解答 Dissecting Recall of Factual Associations in Auto-Regressive Language Models ( http://arxiv.org/abs/2304.14767v3 ) ライセンス: Link先を確認 | Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson | (参考訳) トランスフォーマティブベースの言語モデル(lms)は、そのパラメータの事実的知識をキャプチャすることが知られている。
以前の研究では、事実関連が格納されている場所を調査したが、推論中にどのように内部的に検索されるのかは、ほとんど分かっていない。
我々はこの質問を情報フローのレンズを通して検討する。
そこで本研究では,モデルが対象と関連性に関する情報を集約して正しい属性を予測する方法について検討する。
注意点への介入により、まず、情報が予測に伝播する2つの臨界点、すなわち、関係位置からの1つ、対象位置からのもう1つを識別する。
次に,これらの点の情報を解析することにより,属性抽出のための3段階の内部メカニズムを明らかにする。
まず、最終目的位置での表現は、初期のMLPサブレイヤーによって駆動される濃縮過程を経て、多くの主題関連属性を符号化する。
第2に、関係からの情報が予測に伝播する。
第三に、予測表現は、リッチな対象を「クエリ」して属性を抽出する。
おそらく驚くべきことに、この抽出は一般的に注意頭を通して行われ、しばしばパラメーターの主題属性マッピングを符号化する。
総じて,事実関係が lms 内でどのように保存・抽出されるのかを包括的に把握し,知識の局在化と編集に関する今後の研究を促進する。 Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation "queries" the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing. | 翻訳日:2023-10-18 05:29:17 公開日:2023-10-13 |
# QuMoS: 量子機械学習モデルのセキュリティを維持するためのフレームワーク QuMoS: A Framework for Preserving Security of Quantum Machine Learning Model ( http://arxiv.org/abs/2304.11511v2 ) ライセンス: Link先を確認 | Zhepeng Wang, Jinyang Li, Zhirui Hu, Blake Gage, Elizabeth Iwasawa, Weiwen Jiang | (参考訳) セキュリティは常に、機械学習(ML)アプリケーションにおいて重要な問題でした。
関連するサンプルの収集、データのラベル付け、コンピューティングパワーの消費など、モデルトレーニングのコストが高いため、モデルスティーリング攻撃は最も重要な問題のひとつです。
量子コンピューティングに関しては、量子機械学習(QML)モデルスティーリング攻撃も存在しており、同型暗号のような従来の暗号化手法は量子計算に直接適用できないため、さらに深刻である。
一方、量子コンピューティング資源が限られているため、QMLモデルのトレーニングの金銭的コストは、短期的には古典的モデルよりもさらに高くなる可能性がある。
したがって、サードパーティ企業が開発した十分に調整されたQMLモデルは、通常のユーザが使用するサービスとして量子クラウドプロバイダに委譲することができる。
この場合、クラウドプロバイダが攻撃を受けている場合、QMLモデルはリークされる可能性が高い。
このような問題に対処するため,モデルセキュリティを維持するための新しいフレームワークQuMoSを提案する。
本稿では,完全なQMLモデルを複数の部分に分割し,物理的に分離された複数の量子クラウドプロバイダに分散して実行することを提案する。
したがって、たとえ単一のプロバイダの敵が部分的なモデルを得ることができるとしても、完全なモデルを取得するのに十分な情報を持っていない。
有望ではあるが、分散環境での任意のモデル設計はモデルのセキュリティを提供することができない。
さらに,分散環境下でのモデル設計を自動的に最適化し,モデル性能とセキュリティの良好なトレードオフを実現するための強化学習ベースのセキュリティエンジンを開発した。
4つのデータセットにおける実験結果は、qumosが提案したモデル設計が、ベースラインよりも高いセキュリティを提供しながら、競合性能を達成できることを示している。 Security has always been a critical issue in machine learning (ML) applications. Due to the high cost of model training -- such as collecting relevant samples, labeling data, and consuming computing power -- model-stealing attack is one of the most fundamental but vitally important issues. When it comes to quantum computing, such a quantum machine learning (QML) model-stealing attack also exists and is even more severe because the traditional encryption method, such as homomorphic encryption can hardly be directly applied to quantum computation. On the other hand, due to the limited quantum computing resources, the monetary cost of training QML model can be even higher than classical ones in the near term. Therefore, a well-tuned QML model developed by a third-party company can be delegated to a quantum cloud provider as a service to be used by ordinary users. In this case, the QML model will likely be leaked if the cloud provider is under attack. To address such a problem, we propose a novel framework, namely QuMoS, to preserve model security. We propose to divide the complete QML model into multiple parts and distribute them to multiple physically isolated quantum cloud providers for execution. As such, even if the adversary in a single provider can obtain a partial model, it does not have sufficient information to retrieve the complete model. Although promising, we observed that an arbitrary model design under distributed settings cannot provide model security. We further developed a reinforcement learning-based security engine, which can automatically optimize the model design under the distributed setting, such that a good trade-off between model performance and security can be made. Experimental results on four datasets show that the model design proposed by QuMoS can achieve competitive performance while providing the highest security than the baselines. | 翻訳日:2023-10-18 05:28:55 公開日:2023-10-13 |
# 多言語前ファクトチェッククレーム検索 Multilingual Previously Fact-Checked Claim Retrieval ( http://arxiv.org/abs/2305.07991v2 ) ライセンス: Link先を確認 | Mat\'u\v{s} Pikuliak and Ivan Srba and Robert Moro and Timo Hromadka and Timotej Smolen and Martin Melisek and Ivan Vykopal and Jakub Simko and Juraj Podrouzek and Maria Bielikova | (参考訳) ファクトチェックは、事実チェックが必要な大量のオンラインコンテンツによって、しばしば妨げられる。
NLPは、調査中のコンテンツに関連する既存の事実チェックを取得することで、それらを支援することができる。
本稿では,以前に事実確認されたクレーム検索のための多言語データセットであるMultiClaimを紹介する。
ソーシャルメディアから27の言語で28kの投稿、プロのファクトチェック担当者が書いた39の言語で206kのファクトチェック、そしてこれら2つのグループ間の31kの接続を集めました。
これは、これまででもっとも広範囲で言語的に多様なデータセットである。
教師なしの手法がデータセットとその様々な次元にどう影響するかを評価した。
このような多種多様なデータセットの評価には複雑さがあり,結果の解釈に先立って適切な対応が必要となる。
また,教師なしの微調整手法も評価し,教師なし手法を大幅に改善した。 Fact-checkers are often hampered by the sheer amount of online content that needs to be fact-checked. NLP can help them by retrieving already existing fact-checks relevant to the content being investigated. This paper introduces a new multilingual dataset -- MultiClaim -- for previously fact-checked claim retrieval. We collected 28k posts in 27 languages from social media, 206k fact-checks in 39 languages written by professional fact-checkers, as well as 31k connections between these two groups. This is the most extensive and the most linguistically diverse dataset of this kind to date. We evaluated how different unsupervised methods fare on this dataset and its various dimensions. We show that evaluating such a diverse dataset has its complexities and proper care needs to be taken before interpreting the results. We also evaluated a supervised fine-tuning approach, improving upon the unsupervised method significantly. | 翻訳日:2023-10-18 05:17:58 公開日:2023-10-13 |
# 人工原子の結合に及ぼす初期条件と外部条件の影響の数値解析 Numerical analysis of the influence of initial and external conditions on the association of artificial atoms ( http://arxiv.org/abs/2307.06707v2 ) ライセンス: Link先を確認 | Chen Ran, Yuri Ozhigov | (参考訳) 化学動力学シーンはコンピュータシミュレーションの最も重要な応用である。
我々は、電子が温度(フォノン)と光子現象の影響下で、異なる深さのポテンシャル孔(新しい分子軌道、異なるエネルギーを持つハイブリッド原子軌道)の間を飛び回ることを示した。
指数関数的に増加する計算複雑性を克服する。
この記事では、状態空間選択のアルゴリズムを実験した。 The chemical dynamics scene is the most important application of computer simulation. We show that electrons jump between potential holes of different depths (new molecular orbits, hybrid atomic orbits with different energies) under the influence of temperature (phonons) and photon phenomena. To overcome exponentially increasing computational complexity. In our article we experimented with algorithms of state space selection. | 翻訳日:2023-10-18 04:30:48 公開日:2023-10-13 |
# Sinkhorn Losses を用いた Neural Schr\"{o}dinger Bridge:コロイド自己組織化のデータ駆動最小化制御への応用 Neural Schr\"{o}dinger Bridge with Sinkhorn Losses: Application to Data-driven Minimum Effort Control of Colloidal Self-assembly ( http://arxiv.org/abs/2307.14442v2 ) ライセンス: Link先を確認 | Iman Nodozi, Charlie Yan, Mira Khare, Abhishek Halder, Ali Mesbah | (参考訳) また,コロイド自己集合の最小労力制御は,1930年代初頭にエルウィン・シュル\"{o}dinger の著作から生まれた固定ホライゾン確率的最適制御問題のクラスである一般化された schr\"{o}dinger bridge problem として順序パラメータ空間において自然に定式化できることを示した。
近年、この種の問題は、制御と機械学習のコミュニティにおける研究活動が再び活発化している。
このような問題に対する理論と計算に関する既存の文献とは異なり、コロイド自己集合に対する制御されたドリフトと拡散係数は一般に制御において非アフィンであり、物理学に基づくモデリングから得ることは困難である。
このような一般化問題に対する最適性の条件を導出し、結果の方程式系が既存の結果と構造的に大きく異なることを示し、標準的な計算手法がもはや適用されないことを示す。
そこで我々は,ニューラルネットワークの最近の進歩を革新することによって,そのような一般化したSchr\"{o}dinger Bridge問題を解決するために,'neural Schr\"{o}dinger Bridge'というデータ駆動学習制御フレームワークを提案する。
コロイド自己組織化の数値ケーススタディを用いて,提案手法の有効性について述べる。
分子動力学シミュレーションデータを用いて制御ドリフトと拡散係数を2つのニューラルネットワークとして学習し、この2つを用いて、この制御問題に特有な分布終端制約を設計したシンクホーン損失を持つ第3のネットワークを訓練する。 We show that the minimum effort control of colloidal self-assembly can be naturally formulated in the order-parameter space as a generalized Schr\"{o}dinger bridge problem -- a class of fixed-horizon stochastic optimal control problems that originated in the works of Erwin Schr\"{o}dinger in the early 1930s. In recent years, this class of problems has seen a resurgence of research activities in the control and machine learning communities. Different from the existing literature on the theory and computation for such problems, the controlled drift and diffusion coefficients for colloidal self-assembly are typically nonaffine in control, and are difficult to obtain from physics-based modeling. We deduce the conditions of optimality for such generalized problems, and show that the resulting system of equations is structurally very different from the existing results in a way that standard computational approaches no longer apply. Thus motivated, we propose a data-driven learning and control framework, named `neural Schr\"{o}dinger bridge', to solve such generalized Schr\"{o}dinger bridge problems by innovating on recent advances in neural networks. We illustrate the effectiveness of the proposed framework using a numerical case study of colloidal self-assembly. We learn the controlled drift and diffusion coefficients as two neural networks using molecular dynamics simulation data, and then use these two to train a third network with Sinkhorn losses designed for distributional endpoint constraints, specific for this class of control problems. | 翻訳日:2023-10-18 04:19:47 公開日:2023-10-13 |
# 教育データマイニングにおけるディープラーニング技術に関する包括的調査 A Comprehensive Survey on Deep Learning Techniques in Educational Data Mining ( http://arxiv.org/abs/2309.04761v2 ) ライセンス: Link先を確認 | Yuanguo Lin, Hong Chen, Wei Xia, Fan Lin, Pengcheng Wu, Zongyue Wang, Yong Liu | (参考訳) 教育データマイニング(edm: educational data mining)は、計算技術の力を活用し、教育データを分析する重要な研究分野である。
教育データの複雑さと多様性が高まる中、ディープラーニング技術は、データの解析とモデリングに関連する課題に対処する上で、大きなアドバンテージを示している。
この調査は、Deep LearningによるEDMの現状を体系的にレビューすることを目的としている。
まず、EDMとDeep Learningの簡単な紹介から始め、現代の教育の文脈におけるそれらの関連性を強調します。
次に、知識追跡、望ましくない学生検出、性能予測、パーソナライズドレコメンデーションを含む4つの典型的な教育シナリオに適用されるディープラーニング技術について、詳細なレビューを行う。
さらに、EDMのための公開データセットと処理ツールの概要を概観する。
最後に,本研究領域における新たな動向と今後の方向性を指摘する。 Educational Data Mining (EDM) has emerged as a vital field of research, which harnesses the power of computational techniques to analyze educational data. With the increasing complexity and diversity of educational data, Deep Learning techniques have shown significant advantages in addressing the challenges associated with analyzing and modeling this data. This survey aims to systematically review the state-of-the-art in EDM with Deep Learning. We begin by providing a brief introduction to EDM and Deep Learning, highlighting their relevance in the context of modern education. Next, we present a detailed review of Deep Learning techniques applied in four typical educational scenarios, including knowledge tracing, undesirable student detecting, performance prediction, and personalized recommendation. Furthermore, a comprehensive overview of public datasets and processing tools for EDM is provided. Finally, we point out emerging trends and future directions in this research area. | 翻訳日:2023-10-18 03:40:25 公開日:2023-10-13 |
# 効率的なフロンティアを学ぶ Learning the Efficient Frontier ( http://arxiv.org/abs/2309.15775v2 ) ライセンス: Link先を確認 | Philippe Chatigny and Ivan Sergienko and Ryan Ferguson and Jordan Weir and Maxime Bergeron | (参考訳) 効率的なフロンティア(EF)は、与えられたリスクレベルにおける報酬を最大化する最適なポートフォリオを見つける必要がある基本的なリソース割り当て問題である。
この最適解は伝統的に凸最適化問題を解くことによって得られる。
本稿では,不均一な線形制約と可変数の最適化入力に対して,EF凸最適化問題の結果を頑健に予測する高速ニューラルネットワーク近似フレームワークであるNeuralEFを紹介する。
逐次問題として最適化問題を再構成することにより,不連続な動作を処理しながら大規模シミュレーションを高速化するためのNeuralEFが実現可能であることを示す。 The efficient frontier (EF) is a fundamental resource allocation problem where one has to find an optimal portfolio maximizing a reward at a given level of risk. This optimal solution is traditionally found by solving a convex optimization problem. In this paper, we introduce NeuralEF: a fast neural approximation framework that robustly forecasts the result of the EF convex optimization problem with respect to heterogeneous linear constraints and variable number of optimization inputs. By reformulating an optimization problem as a sequence to sequence problem, we show that NeuralEF is a viable solution to accelerate large-scale simulation while handling discontinuous behavior. | 翻訳日:2023-10-18 03:17:35 公開日:2023-10-13 |
# スケールアップトランスフォーマによる高分解能画像分類の高速化 Boosting High Resolution Image Classification with Scaling-up Transformers ( http://arxiv.org/abs/2309.15277v2 ) ライセンス: Link先を確認 | Yi Wang | (参考訳) ICCV/CVPPA2023 Deep Nutrient Deficiency Challengeで2位を獲得した高解像度画像分類のための総合的なアプローチを提案する。
アプローチは以下の完全なパイプラインから成り立っている。
1)潜在的な領域シフトをチェックするためのデータ分布解析
2)高分解能入力のためにスケールアップする強いベースラインモデルに対するバックボーン選択。
3) 公開事前学習モデルと小サブデータセットの連続微調整を利用した転送学習
4) トレーニングデータの多様性と過剰適合防止のためのデータ強化
5) 予測のロバスト性を改善するためのテスト時間補完
6) 最終試験結果の平滑化を目的としたクロスフォールドモデル予測平均を行う「データスープ」。 We present a holistic approach for high resolution image classification that won second place in the ICCV/CVPPA2023 Deep Nutrient Deficiency Challenge. The approach consists of a full pipeline of: 1) data distribution analysis to check potential domain shift, 2) backbone selection for a strong baseline model that scales up for high resolution input, 3) transfer learning that utilizes published pretrained models and continuous fine-tuning on small sub-datasets, 4) data augmentation for the diversity of training data and to prevent overfitting, 5) test-time augmentation to improve the prediction's robustness, and 6) "data soups" that conducts cross-fold model prediction average for smoothened final test results. | 翻訳日:2023-10-18 03:16:44 公開日:2023-10-13 |
# 推論 Inferring Inference ( http://arxiv.org/abs/2310.03186v3 ) ライセンス: Link先を確認 | Rajkumar Vasudeva Raju, Zhe Li, Scott Linderman, Xaq Pitkow | (参考訳) マイクロサーキットのパターンは、脳が一連の正準計算ユニットを持っていることを示唆している。
しかし、神経表現は分散しているため、関連する計算は単一ニューロン変換と間接的にのみ関連付けられる。
したがって、標準的な分散計算を定義するにはオープンな課題である。
ニューラル計算の規範的およびアルゴリズム的理論を数学的枠組みに統合し,大規模神経活動パターンから正準分散計算を推定する。
規範レベルでは、脳は環境の構造化された内部モデルを作成し、感覚入力を説明する潜在原因を仮定し、その知覚入力を使って潜在原因を推測する。
アルゴリズムレベルでは、この推論プロセスが世界のグラフ構造モデル上での非線形メッセージパッシングアルゴリズムであることを示す。
知覚的推論タスク中の神経活動の時系列から、我々のフレームワークが発見する
(i)関連潜在変数の神経表現。
(ii)脳の内部モデルを定義するこれらの変数間の相互作用、及び
(iii)推論アルゴリズムを指定するメッセージ機能。
対象とする計算特性は、任意の標準計算に内在する対称性から、大域変換まで統計的に区別できる。
実演として,確率的グラフィカルモデル上で近似推論アルゴリズムを暗黙的に実装したモデル脳の記録をシミュレートする。
外部入力とノイズの神経活動を考えると、潜在変数、その神経表現とダイナミクス、および標準メッセージ関数を回復する。
ニューラルデータから標準計算を抽出するのに必要な実験設計の特徴を強調した。
全体として、このフレームワークはニューラル記録の解釈可能な構造を発見するための新しいツールを提供する。 Patterns of microcircuitry suggest that the brain has an array of repeated canonical computational units. Yet neural representations are distributed, so the relevant computations may only be related indirectly to single-neuron transformations. It thus remains an open challenge how to define canonical distributed computations. We integrate normative and algorithmic theories of neural computation into a mathematical framework for inferring canonical distributed computations from large-scale neural activity patterns. At the normative level, we hypothesize that the brain creates a structured internal model of its environment, positing latent causes that explain its sensory inputs, and uses those sensory inputs to infer the latent causes. At the algorithmic level, we propose that this inference process is a nonlinear message-passing algorithm on a graph-structured model of the world. Given a time series of neural activity during a perceptual inference task, our framework finds (i) the neural representation of relevant latent variables, (ii) interactions between these variables that define the brain's internal model of the world, and (iii) message-functions specifying the inference algorithm. These targeted computational properties are then statistically distinguishable due to the symmetries inherent in any canonical computation, up to a global transformation. As a demonstration, we simulate recordings for a model brain that implicitly implements an approximate inference algorithm on a probabilistic graphical model. Given its external inputs and noisy neural activity, we recover the latent variables, their neural representation and dynamics, and canonical message-functions. We highlight features of experimental design needed to successfully extract canonical computations from neural data. Overall, this framework provides a new tool for discovering interpretable structure in neural recordings. | 翻訳日:2023-10-18 02:58:06 公開日:2023-10-13 |
# AXNav: 自然言語からアクセシビリティテストの再生 AXNav: Replaying Accessibility Tests from Natural Language ( http://arxiv.org/abs/2310.02424v2 ) ライセンス: Link先を確認 | Maryam Taeb, Amanda Swearngin, Eldon Schoop, Ruijia Cheng, Yue Jiang, Jeffrey Nichols | (参考訳) 開発者と品質保証テスターは、しばしば製品ライフサイクル全体を通してアクセシビリティ機能をテストするために手動テストに依存している。
残念ながら、手動テストは面倒で、多くの場合、圧倒的なスコープを持ち、他の開発マイルストーンのスケジュールが難しい。
近年、大規模言語モデル(llm)はuiの自動化など様々なタスクに使われているが、アクセシビリティテストをサポートする目的で、アシスト技術を制御するための使用について誰も検討していない。
本稿では,自然言語を用いたアクセシビリティテストワークフローの要件について検討する。
このことから、手動アクセシビリティテスト(例: ``Search for a show in VoiceOver'')を入力として、LLMとピクセルベースのUI理解モデルを組み合わせてテストを実行し、章入りのナビゲート可能なビデオを生成するシステムを構築する。
各ビデオでは、QAテスタを支援するために、アクセシビリティの問題の検出とフラグ付けにヒューリスティックを適用します(例えば、Large Textを有効にしてテキストサイズが増加しない、VoiceOverナビゲーションループなど)。
本システムを,アクセシビリティQA専門家による10名の参加者を対象に評価し,そのツールが現在の作業で非常に有用であることを示すとともに,手動で機能をテストする方法と同様のテストを行うことを示した。
この研究はまた、アクセシビリティテストにLLMを使うことに関する今後の研究の洞察を明らかにしている。 Developers and quality assurance testers often rely on manual testing to test accessibility features throughout the product lifecycle. Unfortunately, manual testing can be tedious, often has an overwhelming scope, and can be difficult to schedule amongst other development milestones. Recently, Large Language Models (LLMs) have been used for a variety of tasks including automation of UIs, however to our knowledge no one has yet explored their use in controlling assistive technologies for the purposes of supporting accessibility testing. In this paper, we explore the requirements of a natural language based accessibility testing workflow, starting with a formative study. From this we build a system that takes as input a manual accessibility test (e.g., ``Search for a show in VoiceOver'') and uses an LLM combined with pixel-based UI Understanding models to execute the test and produce a chaptered, navigable video. In each video, to help QA testers we apply heuristics to detect and flag accessibility issues (e.g., Text size not increasing with Large Text enabled, VoiceOver navigation loops). We evaluate this system through a 10 participant user study with accessibility QA professionals who indicated that the tool would be very useful in their current work and performed tests similarly to how they would manually test the features. The study also reveals insights for future work on using LLMs for accessibility testing. | 翻訳日:2023-10-18 02:56:58 公開日:2023-10-13 |
# Qinterpreterによる量子アルゴリズムの解放:主要な量子コンピューティングプラットフォーム間の理論と実践のギャップを埋める Unleashing quantum algorithms with Qinterpreter: bridging the gap between theory and practice across leading quantum computing platforms ( http://arxiv.org/abs/2310.07173v2 ) ライセンス: Link先を確認 | Wilmer Contreras Sep\'ulveda, \'Angel David Torres-Palencia, Jos\'e Javier S\'anchez Mondrag\'on, Braulio Misael Villegas-Mart\'inez, J. Jes\'us Escobedo-Alatorre, Sandra Gesing, N\'estor Lozano-Cris\'ostomo, Julio C\'esar Garc\'ia-Melgarejo, Juan Carlos S\'anchez P\'erez, Eddie Nelson Palacios- P\'erez, Omar PalilleroSandoval | (参考訳) 量子コンピューティングは急速に発展し、有望な分野であり、薬物設計、ネットワーク技術、持続可能エネルギーなど多くの研究領域に革命を起こす可能性がある。
古典コンピューティングと固有の複雑さと分岐性のため、IBM Qiskit、Amazon Braket、Cirq、PyQuil、PennyLaneといった量子アルゴリズムを実装するために、いくつかの主要な量子コンピューティングライブラリが開発されている。
これらのライブラリは、古典的コンピュータ上の量子シミュレーションを可能にし、対応する量子ハードウェア上でのプログラム実行を容易にする。
すべてのプラットフォームにはいくつかの違いがあるが、主な概念は同じである。
QInterpreterは、Jupyter Notebooksを使用してQuantum Science Gateway QubitHubに埋め込まれたツールで、あるライブラリから別のライブラリへシームレスにプログラムを変換し、結果を視覚化する。
これはよく知られた5つの量子ライブラリを統合されたフレームワークに統合する。
初心者向けの教育ツールとして設計されたQinterpreterは、さまざまなプラットフォームにわたる量子回路の開発と実行を、簡単に行うことができる。
この研究は量子プログラミングにおけるQinterpreterの汎用性とアクセシビリティを強調し、量子コンピューティングを若く、専門性が少なく、多様な文化的、国家的コミュニティに浸透させるという私たちの究極の目標を強調している。 Quantum computing is a rapidly emerging and promising field that has the potential to revolutionize numerous research domains, including drug design, network technologies and sustainable energy. Due to the inherent complexity and divergence from classical computing, several major quantum computing libraries have been developed to implement quantum algorithms, namely IBM Qiskit, Amazon Braket, Cirq, PyQuil, and PennyLane. These libraries allow for quantum simulations on classical computers and facilitate program execution on corresponding quantum hardware, e.g., Qiskit programs on IBM quantum computers. While all platforms have some differences, the main concepts are the same. QInterpreter is a tool embedded in the Quantum Science Gateway QubitHub using Jupyter Notebooks that translates seamlessly programs from one library to the other and visualizes the results. It combines the five well-known quantum libraries: into a unified framework. Designed as an educational tool for beginners, Qinterpreter enables the development and execution of quantum circuits across various platforms in a straightforward way. The work highlights the versatility and accessibility of Qinterpreter in quantum programming and underscores our ultimate goal of pervading Quantum Computing through younger, less specialized, and diverse cultural and national communities. | 翻訳日:2023-10-18 02:27:58 公開日:2023-10-13 |
# 任意の整数順のベッセル・ガウスビーム:伝播プロファイル、コヒーレンス特性および品質係数 Bessel-Gauss beams of arbitrary integer order: propagation profile, coherence properties and quality factor ( http://arxiv.org/abs/2310.09402v1 ) ライセンス: Link先を確認 | S. CruzyCruz, Z. Gress, P. Jimenez-Macias and O. Rosas-Ortiz | (参考訳) 本稿では, 逆パラボリックプロファイルの勾配指標媒質において, 任意の整数順序とよく定義された光学角運動量を持つベッセル・ガウスモードを生成する新しい手法を提案する。
伝播特性とコヒーレンス特性および品質因子は、量子力学で広く用いられる代数的手法を用いて研究されている。
良く定義された光学角運動量条件により、リー群 $su(1,1)$ はベッセル・ガウスビームの特徴的な対称性として光に現れる。 We present a novel approach to generate Bessel-Gauss modes of arbitrary integer order and well-defined optical angular momentum in a gradient index medium of transverse parabolic profile. The propagation and coherence properties, as well as the quality factor, are studied using algebraic techniques that are widely used in quantum mechanics. It is found that imposing the well-defined optical angular momentum condition, the Lie group $SU(1,1)$ comes to light as a characteristic symmetry of the Bessel-Gauss beams. | 翻訳日:2023-10-18 02:17:12 公開日:2023-10-13 |
# エキスパートモデルの製品識別可能性 Identifiability of Product of Experts Models ( http://arxiv.org/abs/2310.09397v1 ) ライセンス: Link先を確認 | Spencer L. Gordon, Manav Kant, Eric Ma, Leonard J. Schulman, Andrei Staicu | (参考訳) 専門家の製品(PoE)は、各ノードの値が入力時の値(おそらく否定される)のAND(または製品)である階層ネットワークである。
これらは、多くの低次元制約を満たす高次元データを生成するために効率的に学習できるニューラルネットワークアーキテクチャとして導入された。
poeは学習に様々な応用方法を見出した。
本研究では,二項潜在変数の層を持つ専門家モデルの生成物の識別可能性の問題と,二項可観測器の層が潜在変数のiid条件付きであることについて検討する。
モデルを特定するのに必要な観測値の数に関する以前の最上位境界は、パラメータの数で指数関数であった。
以下に示す。
(a) 潜在変数が均一に分散されている場合、モデルはパラメータの数に等しい観測可能な数で識別できる(したがって最もよい)。
(b) 任意の分散ラテントのより一般的な場合において、モデルはパラメータの個数でまだ線型である多くの可観測変数に対して同定可能である(そして、最良の可観測値の2倍の範囲内)。
この証明は、いくつかの特別な3期再発の根のインターレース現象に依存している。 Product of experts (PoE) are layered networks in which the value at each node is an AND (or product) of the values (possibly negated) at its inputs. These were introduced as a neural network architecture that can efficiently learn to generate high-dimensional data which satisfy many low-dimensional constraints -- thereby allowing each individual expert to perform a simple task. PoEs have found a variety of applications in learning. We study the problem of identifiability of a product of experts model having a layer of binary latent variables, and a layer of binary observables that are iid conditional on the latents. The previous best upper bound on the number of observables needed to identify the model was exponential in the number of parameters. We show: (a) When the latents are uniformly distributed, the model is identifiable with a number of observables equal to the number of parameters (and hence best possible). (b) In the more general case of arbitrarily distributed latents, the model is identifiable for a number of observables that is still linear in the number of parameters (and within a factor of two of best-possible). The proofs rely on root interlacing phenomena for some special three-term recurrences. | 翻訳日:2023-10-18 02:17:02 公開日:2023-10-13 |
# CORN: 完全参照と非参照オーディオメトリクスを併用 CORN: Co-Trained Full-Reference And No-Reference Audio Metrics ( http://arxiv.org/abs/2310.09388v1 ) ライセンス: Link先を確認 | Pranay Manocha, Donald Williamson, Adam Finkelstein | (参考訳) 知覚評価は様々な音声処理タスクにおいて重要な要素である。
フルレファレンス(FR)または類似度に基づくメトリクスは高品質なレファレンス記録に依存しており、低いレファレンスまたは破損したバージョンを比較して評価することができる。
対照的に、No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。
FRとNRのアプローチはどちらも、互いに利点と欠点を示している。
本稿では,これら2つのアプローチを両立させ,FRモデルとNRモデルを同時に訓練するCORNという新しいフレームワークを提案する。
トレーニング後、モデルは独立して適用できる。
我々は、いくつかの共通の客観的指標を予測し、2つの異なるアーキテクチャを通してコーンを評価する。
CORNを用いてトレーニングされたNRモデルは、トレーニング中に基準記録にアクセスでき、予想されるように、独立にトレーニングされたベースラインNRモデルを上回っている。
さらに注目すべきは、同じトレーニングデータと同じモデルアーキテクチャに依存しているにもかかわらず、CORN FRモデルがベースラインモデルを上回ることだ。
したがって、単一のトレーニングレジームは2つの独立した有用なモデルを生成し、それぞれが独立に訓練されたモデルを上回る。 Perceptual evaluation constitutes a crucial aspect of various audio-processing tasks. Full reference (FR) or similarity-based metrics rely on high-quality reference recordings, to which lower-quality or corrupted versions of the recording may be compared for evaluation. In contrast, no-reference (NR) metrics evaluate a recording without relying on a reference. Both the FR and NR approaches exhibit advantages and drawbacks relative to each other. In this paper, we present a novel framework called CORN that amalgamates these dual approaches, concurrently training both FR and NR models together. After training, the models can be applied independently. We evaluate CORN by predicting several common objective metrics and across two different architectures. The NR model trained using CORN has access to a reference recording during training, and thus, as one would expect, it consistently outperforms baseline NR models trained independently. Perhaps even more remarkable is that the CORN FR model also outperforms its baseline counterpart, even though it relies on the same training data and the same model architecture. Thus, a single training regime produces two independently useful models, each outperforming independently trained models. | 翻訳日:2023-10-18 02:16:44 公開日:2023-10-13 |
# 言葉とエクササイズから健康へ:farsi chatbot for self-attachment technique From Words and Exercises to Wellness: Farsi Chatbot for Self-Attachment Technique ( http://arxiv.org/abs/2310.09362v1 ) ライセンス: Link先を確認 | Sina Elahimanesh, Shayan Salehi, Sara Zahedi Movahed, Lisa Alazraki, Ruoyu Hu, Abbas Edalat | (参考訳) 社会的孤立とうつ病や不安の高まりを特徴とするポストパンデミック時代以降、デジタル心理療法に基づく会話エージェントは、伝統的なセラピーセッションよりも重要な役割を担っている。
そこで本研究では,音声対応型チャットボットをfarsiで開発し,アタッチメント理論に基づく自己愛着(sat)によってユーザを誘導する。
我々のチャットボットは,会話を通してユーザ入力を理解し,対話フローチャートをナビゲートするために,ルールベースのモジュールと分類ベースのモジュールの動的配列を使用し,ユーザの感情や精神状態に依存する適切なSAT演習を推奨する。
特に、6000以上の発話のデータセットを収集し、ユーザの感情を12クラスに分類する新しい感情分析モジュールを92%以上の精度で開発する。
会話のノベルとエンゲージメントを維持するために、チャットボットの応答は、farsi gpt-2と強化学習アプローチによって作成された大きな発話データセットから取り出され、最小限の人間のアノテーションを必要とする。
私たちのチャットボットは、sat teacherと呼ばれる質問応答モジュールも提供しています。
最後に,ボットのユーザインタフェースとしてクロスプラットフォームアプリケーションを設計する。
チャットボットとの対話を2000回以上行った非臨床住民のn=52ボランティアを対象に,10日間の人間実験でプラットフォームを評価した。
その結果,ほとんどのユーザ(75%)にプラットフォームが関与していたこと,対話後の感触が72%,sat教師のパフォーマンスに満足した人が74%であった。 In the wake of the post-pandemic era, marked by social isolation and surging rates of depression and anxiety, conversational agents based on digital psychotherapy can play an influential role compared to traditional therapy sessions. In this work, we develop a voice-capable chatbot in Farsi to guide users through Self-Attachment (SAT), a novel, self-administered, holistic psychological technique based on attachment theory. Our chatbot uses a dynamic array of rule-based and classification-based modules to comprehend user input throughout the conversation and navigates a dialogue flowchart accordingly, recommending appropriate SAT exercises that depend on the user's emotional and mental state. In particular, we collect a dataset of over 6,000 utterances and develop a novel sentiment-analysis module that classifies user sentiment into 12 classes, with accuracy above 92%. To keep the conversation novel and engaging, the chatbot's responses are retrieved from a large dataset of utterances created with the aid of Farsi GPT-2 and a reinforcement learning approach, thus requiring minimal human annotation. Our chatbot also offers a question-answering module, called SAT Teacher, to answer users' questions about the principles of Self-Attachment. Finally, we design a cross-platform application as the bot's user interface. We evaluate our platform in a ten-day human study with N=52 volunteers from the non-clinical population, who have had over 2,000 dialogues in total with the chatbot. The results indicate that the platform was engaging to most users (75%), 72% felt better after the interactions, and 74% were satisfied with the SAT Teacher's performance. | 翻訳日:2023-10-18 02:16:27 公開日:2023-10-13 |
# スマート・マニュファクチャリング・プロセスにおけるトポロジカルデータ分析 -最先端技術に関する調査- Topological Data Analysis in smart manufacturing processes -- A survey on the state of the art ( http://arxiv.org/abs/2310.09319v1 ) ライセンス: Link先を確認 | Martin Uray, Barbara Giunti, Michael Kerber, Stefan Huber | (参考訳) トポロジカルデータ解析(英: topological data analysis、tda)は、医学、物質科学、生物学などいくつかの分野において広く、かつうまく適用されてきた複雑な多次元データの解析のためのトポロジーからの手法を用いた数学的手法である。
本調査は、産業4.0の文脈における工業生産と生産という、TDAの別の応用分野における技術の現状をまとめたものである。
産業生産・製造分野におけるtdaの応用について, 厳密かつ再現可能な文献検索を行う。
得られた作業は、製造プロセス内のアプリケーション領域と入力データタイプに基づいてクラスタ化され、分析される。
我々は、この分野におけるTDAとそのツールの重要な利点を強調し、その課題と将来の可能性を説明する。
最後に、この利益のあるアプリケーション分野のさらなる研究を促進することを目的として、業界(特定分野)におけるTDA手法と特定タイプのアプリケーションについて検討する。 Topological Data Analysis (TDA) is a mathematical method using techniques from topology for the analysis of complex, multi-dimensional data that has been widely and successfully applied in several fields such as medicine, material science, biology, and others. This survey summarizes the state of the art of TDA in yet another application area: industrial manufacturing and production in the context of Industry 4.0. We perform a rigorous and reproducible literature search of applications of TDA on the setting of industrial production and manufacturing. The resulting works are clustered and analyzed based on their application area within the manufacturing process and their input data type. We highlight the key benefits of TDA and their tools in this area and describe its challenges, as well as future potential. Finally, we discuss which TDA methods are underutilized in (the specific area of) industry and the identified types of application, with the goal of prompting more research in this profitable area of application. | 翻訳日:2023-10-18 02:15:57 公開日:2023-10-13 |
# 言語モデルにおける特徴空間の測定 Measuring Feature Sparsity in Language Models ( http://arxiv.org/abs/2310.07837v2 ) ライセンス: Link先を確認 | Mingyang Deng, Lucas Tao, Joe Benton | (参考訳) 近年の研究では、入力テキストの特徴に対応するベクトルの疎線形結合として言語モデルのアクティベーションをモデル化できることが提案されている。
この仮定の下で、これらの作品はスパースコーディングを用いて特徴の方向を再構築することを目的としている。
我々は,これらの疎い符号化手法の成功を評価する指標を開発し,線形性および疎性仮定の有効性を検証する。
我々は,合成スパース線形活性化におけるスパース性のレベルを予測し,スパース線形データと他の分布を区別できることを示す。
私たちはメトリクスを使って、いくつかの言語モデルのスパーシティのレベルを測定します。
言語モデルのアクティベーションは、制御データセットよりもはるかに高い精度で、特徴の疎線形結合によって正確にモデル化できることを示す。
また,モデルアクティベーションが第1層と最終層で最もスパース的であることも示している。 Recent works have proposed that activations in language models can be modelled as sparse linear combinations of vectors corresponding to features of input text. Under this assumption, these works aimed to reconstruct feature directions using sparse coding. We develop metrics to assess the success of these sparse coding techniques and test the validity of the linearity and sparsity assumptions. We show our metrics can predict the level of sparsity on synthetic sparse linear activations, and can distinguish between sparse linear data and several other distributions. We use our metrics to measure levels of sparsity in several language models. We find evidence that language model activations can be accurately modelled by sparse linear combinations of features, significantly more so than control datasets. We also show that model activations appear to be sparsest in the first and final layers. | 翻訳日:2023-10-18 02:14:53 公開日:2023-10-13 |
# 大規模言語モデルにおけるアナロジー同定と文構造符号化の関係の探索 Exploring the Relationship between Analogy Identification and Sentence Structure Encoding in Large Language Models ( http://arxiv.org/abs/2310.07818v2 ) ライセンス: Link先を確認 | Thilini Wijesiriwardene, Ruwan Wickramarachchi, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das | (参考訳) アナロジーの同定は、人間の認知と言語能力において重要な役割を果たす。
過去10年間、'a is to b as c is to d という形で単語の類似性に関する広範な研究が行われてきた。
しかし、「」は、類似の意味を伝える文や文集など、長い文を含むアナロジーへの関心が高まっている。
現在のNLP研究コミュニティは、そのような類似を識別するLarge Language Models (LLMs) の能力を評価しているが、これらの能力の根底にある理由はより深い調査である。
さらに,LLMが言語の構文的構造と意味的構造の両方をエンコードする能力は,その利用が急増する中で大きな注目を集めている。
本研究では,複数のLLMの文類似を識別する能力と,構文構造と意味構造を符号化する能力の関係について検討する。
分析の結果,LLMの類似認識能力は,文の構文的・意味的構造を符号化する能力と正の相関が認められた。
特に,構文構造をよりよく捉えたllmは,文の類似性を識別する能力も高いことが判明した。 Identifying analogies plays a pivotal role in human cognition and language proficiency. In the last decade, there has been extensive research on word analogies in the form of ``A is to B as C is to D.'' However, there is a growing interest in analogies that involve longer text, such as sentences and collections of sentences, which convey analogous meanings. While the current NLP research community evaluates the ability of Large Language Models (LLMs) to identify such analogies, the underlying reasons behind these abilities warrant deeper investigation. Furthermore, the capability of LLMs to encode both syntactic and semantic structures of language within their embeddings has garnered significant attention with the surge in their utilization. In this work, we examine the relationship between the abilities of multiple LLMs to identify sentence analogies, and their capacity to encode syntactic and semantic structures. Through our analysis, we find that analogy identification ability of LLMs is positively correlated with their ability to encode syntactic and semantic structures of sentences. Specifically, we find that the LLMs which capture syntactic structures better, also have higher abilities in identifying sentence analogies. | 翻訳日:2023-10-18 02:14:40 公開日:2023-10-13 |
# G10: スマートテンソルマイグレーションによる効率的なGPUメモリとストレージアーキテクチャの実現 G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations ( http://arxiv.org/abs/2310.09443v1 ) ライセンス: Link先を確認 | Haoyang Zhang, Yirui Eric Zhou, Yuqi Xue, Yiqi Liu, and Jian Huang | (参考訳) ディープラーニングワークロードをスケールするためのGPUメモリウォールを壊すために、さまざまなアーキテクチャとシステム技術が最近提案されている。
典型的なアプローチとしては、フラッシュメモリによるメモリ拡張と直接ストレージアクセスがある。
しかしながら、これらのテクニックは依然として最適化されていないパフォーマンスに苦しめられ、gpuメモリ管理に複雑さをもたらし、今日のディープラーニングワークロードのスケーラビリティ要件を満たすことが困難になっている。
本稿では,ディープラーニングワークロードのテンソル挙動が極めて予測可能であることから,g10と呼ばれる統一gpuメモリとストレージアーキテクチャを提案する。
G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合し、透過的なデータマイグレーションを可能にしながらGPUメモリ容量を拡大する。
この統合GPUメモリとストレージアーキテクチャに基づいて、G10はコンパイラ技術を使用して、ディープラーニングワークロードのテンソル動作を特徴づける。
そのため、フラッシュメモリとホストメモリの帯域幅を考慮し、データマイグレーションを事前にスケジュールすることができる。
ディープラーニングコンパイラと統一メモリアーキテクチャの協調メカニズムにより、G10はデータ転送オーバーヘッドを透過的に隠蔽することができる。
オープンソースGPUシミュレータに基づくG10を実装した。
我々の実験によると、G10は、ディープラーニングのワークロードにコード修正を加えることなく、最先端のGPUメモリソリューションを最大1.75$\times$で上回っている。
スマートデータマイグレーションメカニズムにより、G10は無制限のGPUメモリを想定した理想的なケースのパフォーマンスの90.3\%に達することができる。 To break the GPU memory wall for scaling deep learning workloads, a variety of architecture and system techniques have been proposed recently. Their typical approaches include memory extension with flash memory and direct storage access. However, these techniques still suffer from suboptimal performance and introduce complexity to the GPU memory management, making them hard to meet the scalability requirement of deep learning workloads today. In this paper, we present a unified GPU memory and storage architecture named G10 driven by the fact that the tensor behaviors of deep learning workloads are highly predictable. G10 integrates the host memory, GPU memory, and flash memory into a unified memory space, to scale the GPU memory capacity while enabling transparent data migrations. Based on this unified GPU memory and storage architecture, G10 utilizes compiler techniques to characterize the tensor behaviors in deep learning workloads. Therefore, it can schedule data migrations in advance by considering the available bandwidth of flash memory and host memory. The cooperative mechanism between deep learning compilers and the unified memory architecture enables G10 to hide data transfer overheads in a transparent manner. We implement G10 based on an open-source GPU simulator. Our experiments demonstrate that G10 outperforms state-of-the-art GPU memory solutions by up to 1.75$\times$, without code modifications to deep learning workloads. With the smart data migration mechanism, G10 can reach 90.3\% of the performance of the ideal case assuming unlimited GPU memory. | 翻訳日:2023-10-18 02:06:33 公開日:2023-10-13 |
# MEMTRACK: 深層学習に基づく高密度・低コントラスト環境におけるマイクロロボット追跡 MEMTRACK: A Deep Learning-Based Approach to Microrobot Tracking in Dense and Low-Contrast Environments ( http://arxiv.org/abs/2310.09441v1 ) ライセンス: Link先を確認 | Medha Sawhney, Bhas Karmarkar, Eric J. Leaman, Arka Daw, Anuj Karpatne, Bahareh Behkam | (参考訳) 微小なサイズと高速を考えると、マイクロロボットの追跡は難しい。
バイオメディカル応用のためのマイクロロボットの開発や、生理学的に関連のあるメディア(コラーゲンなど)で機械学研究を行う分野が進むにつれ、この課題はマイクロロボットに匹敵する大きさと形状の密集した環境によって悪化する。
本稿では,モーション・エンハンスメント・マルチレベル・トラッカー(memtrack),合成モーション機能を用いたマイクロロボットの検出と追跡のためのロバストなパイプライン,深層学習に基づく物体検出,補間による簡易オンライン・リアルタイムトラッキング(sort)アルゴリズムの改良について報告する。
我々の物体検出手法は、物体の動きパターンに基づいて異なるモデルを組み合わせる。
コラーゲン中の細菌マイクロモーター (tissue phantom) を用いて実験を行い, コラーゲンおよび水性培地を用いて実験を行った。
以上の結果から,MEMTrackはヒトのアノテーターが見逃す最も難易度の高い細菌を正確に追跡し,コラーゲンでは77%,リコールでは48%,液体メディアでは94%,リコールでは35%の精度を示した。
また,MEMTrackは,手動追跡データと統計的に有意な差はなく,平均細菌速度を定量化できることを示した。
MEMTrackは、マイクロロボットのローカライゼーションとトラッキングに重要な貢献であり、高密度および低コントラスト環境でのマイクロロボット制御に対するビジョンベースのディープラーニングアプローチの可能性を開く。
MEMTrackのトレーニングとテスト、および論文の結果の再現のためのソースコードは、https://github.com/sawhney-medha/MEMTrack.comで公開されている。 Tracking microrobots is challenging, considering their minute size and high speed. As the field progresses towards developing microrobots for biomedical applications and conducting mechanistic studies in physiologically relevant media (e.g., collagen), this challenge is exacerbated by the dense surrounding environments with feature size and shape comparable to microrobots. Herein, we report Motion Enhanced Multi-level Tracker (MEMTrack), a robust pipeline for detecting and tracking microrobots using synthetic motion features, deep learning-based object detection, and a modified Simple Online and Real-time Tracking (SORT) algorithm with interpolation for tracking. Our object detection approach combines different models based on the object's motion pattern. We trained and validated our model using bacterial micro-motors in collagen (tissue phantom) and tested it in collagen and aqueous media. We demonstrate that MEMTrack accurately tracks even the most challenging bacteria missed by skilled human annotators, achieving precision and recall of 77% and 48% in collagen and 94% and 35% in liquid media, respectively. Moreover, we show that MEMTrack can quantify average bacteria speed with no statistically significant difference from the laboriously-produced manual tracking data. MEMTrack represents a significant contribution to microrobot localization and tracking, and opens the potential for vision-based deep learning approaches to microrobot control in dense and low-contrast settings. All source code for training and testing MEMTrack and reproducing the results of the paper have been made publicly available https://github.com/sawhney-medha/MEMTrack. | 翻訳日:2023-10-18 02:06:10 公開日:2023-10-13 |
# リカレントニューラルネットワークによる非線形積分作用素の学習と積分微分方程式の解法への応用 Learning nonlinear integral operators via Recurrent Neural Networks and its application in solving Integro-Differential Equations ( http://arxiv.org/abs/2310.09434v1 ) ライセンス: Link先を確認 | Hardeep Bassi, Yuanran Zhu, Senwei Liang, Jia Yin, Cian C. Reeves, Vojtech Vlcek, and Chao Yang | (参考訳) 本稿では,lstm-rnns(long short-term memory-recurrent neural networks)を用いて,非線形積分微分方程式(ide)に現れる非線形積分演算子を学習し,表現する手法を提案する。
非線形積分作用素のLSTM-RNN表現により、非線形積分微分方程式の系を、多くの効率的な解法が利用できる通常の微分方程式の系に変換することができる。
さらに、IDEにおける非線形積分作用素のLSTM-RNN表現を用いることで、数値時間進化ステップ毎に数値積分を行う必要がなくなるため、LSTM-RNNベースのIDEソルバの全体的な時間コストは、$O(n_T)$から$O(n_T^2)$に削減できる。
モデル問題を用いたLSTM-RNNに基づく数値IDEソルバの効率性とロバスト性について述べる。
さらに、異なる外部力によって駆動されるIDEに適用することで、学習された積分演算子の一般化性を強調します。
現実的な応用として、量子多体系に対するダイソン方程式を効果的に解く方法を示す。 In this paper, we propose using LSTM-RNNs (Long Short-Term Memory-Recurrent Neural Networks) to learn and represent nonlinear integral operators that appear in nonlinear integro-differential equations (IDEs). The LSTM-RNN representation of the nonlinear integral operator allows us to turn a system of nonlinear integro-differential equations into a system of ordinary differential equations for which many efficient solvers are available. Furthermore, because the use of LSTM-RNN representation of the nonlinear integral operator in an IDE eliminates the need to perform a numerical integration in each numerical time evolution step, the overall temporal cost of the LSTM-RNN-based IDE solver can be reduced to $O(n_T)$ from $O(n_T^2)$ if a $n_T$-step trajectory is to be computed. We illustrate the efficiency and robustness of this LSTM-RNN-based numerical IDE solver with a model problem. Additionally, we highlight the generalizability of the learned integral operator by applying it to IDEs driven by different external forces. As a practical application, we show how this methodology can effectively solve the Dyson's equation for quantum many-body systems. | 翻訳日:2023-10-18 02:05:39 公開日:2023-10-13 |
# ZeroSwap: DeFiにおけるデータ駆動型最適市場 ZeroSwap: Data-driven Optimal Market Making in DeFi ( http://arxiv.org/abs/2310.09413v1 ) ライセンス: Link先を確認 | Viraj Nadkarni, Jiachen Hu, Ranvir Rana, Chi Jin, Sanjeev Kulkarni, Pramod Viswanath | (参考訳) AMM(Automated Market Makers)は、分散金融における流動性供給と需要に合致する主要なセンターである。
彼らの機能は主に、資産を流動性プールに投資するインセンティブを得た流動性提供者(LP)の存在に依存している。
しかし、プール資産が取引される価格は、中央集権的かつより流動的な取引所の価格よりも、しばしば停滞する。
これによりLPは仲裁に苦しむことになる。
この問題は、グロステンとミルグロムの古典的な市場マイクロ構造モデルを通じて捉えられたトレーダーの行動に市場価格を適用することで解決される。
本稿では,アセットの外部価格を最適に追跡する,最初の最適ベイズアルゴリズムとモデルフリーなデータ駆動アルゴリズムを提案する。
我々が使用する最適性の概念は、市場メーカの価格にゼロ利益条件を強制するので、ZeroSwapという名前になる。
これにより、市場メーカーは情報トレーダーに損失とノイズトレーダーからの利益のバランスをとることができる。
私たちのアプローチの重要な特性は、価格オラクルや損失オラクルを必要とせずに、外部市場価格を見積もる能力です。
これらのアルゴリズムの性能を理論的に保証し、それらの価格提案の安定性と収束を保証し、強化学習理論に独立した関心を持つ。
市場状況の変化に対するアルゴリズムの堅牢性を実証的に実証する。 Automated Market Makers (AMMs) are major centers of matching liquidity supply and demand in Decentralized Finance. Their functioning relies primarily on the presence of liquidity providers (LPs) incentivized to invest their assets into a liquidity pool. However, the prices at which a pooled asset is traded is often more stale than the prices on centralized and more liquid exchanges. This leads to the LPs suffering losses to arbitrage. This problem is addressed by adapting market prices to trader behavior, captured via the classical market microstructure model of Glosten and Milgrom. In this paper, we propose the first optimal Bayesian and the first model-free data-driven algorithm to optimally track the external price of the asset. The notion of optimality that we use enforces a zero-profit condition on the prices of the market maker, hence the name ZeroSwap. This ensures that the market maker balances losses to informed traders with profits from noise traders. The key property of our approach is the ability to estimate the external market price without the need for price oracles or loss oracles. Our theoretical guarantees on the performance of both these algorithms, ensuring the stability and convergence of their price recommendations, are of independent interest in the theory of reinforcement learning. We empirically demonstrate the robustness of our algorithms to changing market conditions. | 翻訳日:2023-10-18 02:05:16 公開日:2023-10-13 |
# 対人訓練におけるラベルノイズ:ロバストオーバーフィッティング研究の新しい視点 Label Noise in Adversarial Training: A Novel Perspective to Study Robust Overfitting ( http://arxiv.org/abs/2110.03135v4 ) ライセンス: Link先を確認 | Chengyu Dong, Liyuan Liu, Jingbo Shang | (参考訳) 逆行訓練においてラベルノイズが存在することを示す。
このようなラベルノイズは、正反対の例の真のラベル分布とクリーンな例から受け継いだラベルとのミスマッチによるもので、真のラベル分布は敵の摂動によって歪められるが、クリーンな例からラベルを継承する一般的な慣習によって無視される。
ラベルノイズの認識は、対向訓練における強固な過剰フィッティングの頻度に関する洞察を与え、摂動半径とデータ品質に対する興味深い依存性を説明する。
また, ラベル雑音の観点は, 対向訓練におけるepoch-wise double descentの観察とよく一致している。
そこで本研究では,ラベルノイズと頑健なオーバーフィッティングに対処するため,ラベルの自動校正手法を提案する。
提案手法は,新しいハイパーパラメータや追加チューニングを導入することなく,様々なモデルやデータセット間で一貫した性能向上を実現する。 We show that label noise exists in adversarial training. Such label noise is due to the mismatch between the true label distribution of adversarial examples and the label inherited from clean examples - the true label distribution is distorted by the adversarial perturbation, but is neglected by the common practice that inherits labels from clean examples. Recognizing label noise sheds insights on the prevalence of robust overfitting in adversarial training, and explains its intriguing dependence on perturbation radius and data quality. Also, our label noise perspective aligns well with our observations of the epoch-wise double descent in adversarial training. Guided by our analyses, we proposed a method to automatically calibrate the label to address the label noise and robust overfitting. Our method achieves consistent performance improvements across various models and datasets without introducing new hyper-parameters or additional tuning. | 翻訳日:2023-10-17 23:40:35 公開日:2023-10-13 |
# スパイク攻撃--スパイクニューラルネットワークの悪意のある例への転送性とセキュリティについて Attacking the Spike: On the Transferability and Security of Spiking Neural Networks to Adversarial Examples ( http://arxiv.org/abs/2209.03358v3 ) ライセンス: Link先を確認 | Nuo Xu, Kaleel Mahmood, Haowen Fang, Ethan Rathbun, Caiwen Ding, Wujie Wen | (参考訳) スパイキングニューラルネットワーク(SNN)はその高エネルギー効率と最近の分類性能の進歩に多くの注目を集めている。
しかし、従来のディープラーニング手法とは異なり、SNNの強靭性の分析と研究は比較的未発達のままである。
本研究では,SNNの敵攻撃側の進展に着目し,3つの主要な貢献を行う。
まず,SNNに対するホワイトボックス攻撃の成功は,SNNを相手に訓練した場合でも,サロゲート勾配法に大きく依存していることを示す。
第2に、最高の代理勾配法を用いて、SNNや他の最先端アーキテクチャであるビジョントランスフォーマー(ViT)やBig Transfer Convolutional Neural Networks(CNN)に対する敵攻撃の転送可能性を分析する。
非SNNアーキテクチャが生成する逆例は、しばしばSNNによって誤分類されないことを示す。
第3に、SNNドメインとCNN/ViTドメインの両方で有効なユビキタスなホワイトボックス攻撃がないため、新しいホワイトボックス攻撃であるAuto-Attention Gradient Attack (Auto-SAGA)を開発した。
我々は,SNNモデルと非SNNモデルの両方を同時に騙すことができる敵例を生成する。
Auto-SAGAは、SNN/ViTモデルアンサンブルで最大911.1\%の費用で有効であり、Auto-PGDのような従来のホワイトボックス攻撃と比較して、敵に訓練されたSNNアンサンブルに対する攻撃効果が3ドル以上向上する。
実験と分析は3つのデータセット(CIFAR-10、CIFAR-100、ImageNet)、5つの異なるホワイトボックス攻撃と19の分類器モデル(各CIFARデータセットは7つ、ImageNetは5つのモデル)をカバーする。 Spiking neural networks (SNNs) have attracted much attention for their high energy efficiency and for recent advances in their classification performance. However, unlike traditional deep learning approaches, the analysis and study of the robustness of SNNs to adversarial examples remain relatively underdeveloped. In this work, we focus on advancing the adversarial attack side of SNNs and make three major contributions. First, we show that successful white-box adversarial attacks on SNNs are highly dependent on the underlying surrogate gradient technique, even in the case of adversarially trained SNNs. Second, using the best surrogate gradient technique, we analyze the transferability of adversarial attacks on SNNs and other state-of-the-art architectures like Vision Transformers (ViTs) and Big Transfer Convolutional Neural Networks (CNNs). We demonstrate that the adversarial examples created by non-SNN architectures are not misclassified often by SNNs. Third, due to the lack of an ubiquitous white-box attack that is effective across both the SNN and CNN/ViT domains, we develop a new white-box attack, the Auto Self-Attention Gradient Attack (Auto-SAGA). Our novel attack generates adversarial examples capable of fooling both SNN and non-SNN models simultaneously. Auto-SAGA is as much as $91.1\%$ more effective on SNN/ViT model ensembles and provides a $3\times$ boost in attack effectiveness on adversarially trained SNN ensembles compared to conventional white-box attacks like Auto-PGD. Our experiments and analyses are broad and rigorous covering three datasets (CIFAR-10, CIFAR-100 and ImageNet), five different white-box attacks and nineteen classifier models (seven for each CIFAR dataset and five models for ImageNet). | 翻訳日:2023-10-17 23:37:03 公開日:2023-10-13 |
# ニューラルネットワークモデルにおける擬似記憶 Counterfactual Memorization in Neural Language Models ( http://arxiv.org/abs/2112.12938v2 ) ライセンス: Link先を確認 | Chiyuan Zhang, Daphne Ippolito, Katherine Lee, Matthew Jagielski, Florian Tram\`er, Nicholas Carlini | (参考訳) 様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータから機密情報を記憶するリスクがある。
この記憶を理解することは、現実世界の応用や学習理論の観点からも重要である。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
実際、ほとんどの記憶基準は訓練セットの出現数と強く相関しており、記憶された見慣れたフレーズ、公的な知識、テンプレート化されたテキスト、その他の繰り返しデータを取り込んでいる。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
標準テキストデータセットにおける偽記憶されたトレーニング例を同定し,検討する。
本研究では,各記憶学習例が検証セットと生成テキストに与える影響を推定し,テスト時の記憶源の直接的証拠を提供する方法を示す。 Modern neural language models that are widely used in various NLP tasks risk memorizing sensitive information from their training data. Understanding this memorization is important in real world applications and also from a learning-theoretical perspective. An open question in previous studies of language model memorization is how to filter out "common" memorization. In fact, most memorization criteria strongly correlate with the number of occurrences in the training set, capturing memorized familiar phrases, public knowledge, templated texts, or other repeated data. We formulate a notion of counterfactual memorization which characterizes how a model's predictions change if a particular document is omitted during training. We identify and study counterfactually-memorized training examples in standard text datasets. We estimate the influence of each memorized training example on the validation set and on generated texts, showing how this can provide direct evidence of the source of memorization at test time. | 翻訳日:2023-10-17 23:35:49 公開日:2023-10-13 |
# 一般関数近似を用いた平均場強化学習の統計的効率について On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2305.11283v4 ) ライセンス: Link先を確認 | Jiawei Huang, Batuhan Yardim, Niao He | (参考訳) 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の基本統計的効率について,一般モデルに基づく関数近似を用いて検討する。
我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。
低MF-MBEDは平均場RL問題のリッチな族であることを示す。
さらに,mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態,アクション,エージェントの数に依存しない最大推定に基づくアルゴリズムを提案する。
これまでの研究と比較して、我々の結果は実現可能性やリプシッツ連続性を含む最小の仮定しか必要としない。 In this paper, we study the fundamental statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general model-based function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MF-MBED), which characterizes the inherent complexity of mean-field model classes. We show that low MF-MBED subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on maximal likelihood estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and agents. Compared with previous works, our results only require the minimal assumptions including realizability and Lipschitz continuity. | 翻訳日:2023-10-17 23:28:27 公開日:2023-10-13 |
# 記憶: 自己回帰型言語モデルによる暗号化 Memorization for Good: Encryption with Autoregressive Language Models ( http://arxiv.org/abs/2305.10445v2 ) ライセンス: Link先を確認 | Samuel Stevens and Yu Su | (参考訳) over-parameterized neural language models (lms)は、トレーニングデータの長いシーケンスを記憶し、引用することができる。
このような記憶は、通常、過剰フィッティングや情報漏洩といった望ましくない性質と関連付けられるが、本研究は、lmsの未検討の能力として記憶をキャストする。
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰型LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号化)に無作為に復号できることを示す。
SELMは従来の暗号解析には適さないが,従来のIND-CPA(選択平文攻撃下での識別不可能性)ゲームにおいて,その安全性を実証的に検証し,セキュリティに関する有望な結果を示す。
私たちのコードとデータセットはhttps://github.com/OSU-NLP-Group/SELMで公開されています。 Over-parameterized neural language models (LMs) can memorize and recite long sequences of training data. While such memorization is normally associated with undesired properties such as overfitting and information leaking, our work casts memorization as an unexplored capability of LMs. We propose the first symmetric encryption algorithm with autoregressive language models (SELM). We show that autoregressive LMs can encode arbitrary data into a compact real-valued vector (i.e., encryption) and then losslessly decode the vector to the original message (i.e., decryption) via random subspace optimization and greedy decoding. While SELM is not amenable to conventional cryptanalysis, we investigate its security through a novel empirical variant of the classic IND-CPA (indistinguishability under chosen-plaintext attack) game and show promising results on security. Our code and datasets are available at https://github.com/OSU-NLP-Group/SELM. | 翻訳日:2023-10-17 23:27:48 公開日:2023-10-13 |
# 言葉からワイヤーへ:自然言語記述から電子デバイスを生成する From Words to Wires: Generating Functioning Electronic Devices from Natural Language Descriptions ( http://arxiv.org/abs/2305.14874v2 ) ライセンス: Link先を確認 | Peter Jansen | (参考訳) 本研究では,現代の言語モデルには,コード生成に類似した高レベルテキスト記述からの電子回路設計能力があることを示す。
入力、出力、センサ、モーター、プロトコル、ロジックを含むarduinoエコシステムにおける一般的なマイクロコントローラ回路とコードを設計するモデルの能力を評価するpins100とmicro25の2つのベンチマークを紹介し、gpt-4やclaude-v1といったモデルが完全なデバイスの生成において60%から96%のpass@1を達成する。
我々は,放射線による乱数生成装置,絵文字キーボード,可視分光計,補助装置など,中程度に複雑なデバイスの設計アシスタントとして言語モデルを使用する6つのケーススタディと,質的分析性能を提供し,評価課題を概説し,複雑な回路設計と実用性を改善するための開発領域を提案する。
本研究は,自然言語処理と電子設計の分野での研究を促進することを目的としている。 In this work, we show that contemporary language models have a previously unknown skill -- the capacity for electronic circuit design from high-level textual descriptions, akin to code generation. We introduce two benchmarks: Pins100, assessing model knowledge of electrical components, and Micro25, evaluating a model's capability to design common microcontroller circuits and code in the Arduino ecosystem that involve input, output, sensors, motors, protocols, and logic -- with models such as GPT-4 and Claude-V1 achieving between 60% to 96% Pass@1 on generating full devices. We include six case studies of using language models as a design assistant for moderately complex devices, such as a radiation-powered random number generator, an emoji keyboard, a visible spectrometer, and several assistive devices, while offering a qualitative analysis performance, outlining evaluation challenges, and suggesting areas of development to improve complex circuit design and practical utility. With this work, we aim to spur research at the juncture of natural language processing and electronic design. | 翻訳日:2023-10-17 23:04:08 公開日:2023-10-13 |
# エッジにおける連続学習のための効率的なモデル適応 Efficient Model Adaptation for Continual Learning at the Edge ( http://arxiv.org/abs/2308.02084v2 ) ライセンス: Link先を確認 | Zachary A. Daniels, Jun Hu, Michael Lomnitz, Phil Miller, Aswin Raghavan, Joe Zhang, Michael Piacentino, David Zhang | (参考訳) ほとんどの機械学習(ml)システムは、トレーニングとデプロイメントの間、静止したデータ分散を想定している。
これはしばしば誤った仮定である。
mlモデルが実際のデバイスにデプロイされる場合、環境要因の変化、センサ特性、関心事などの理由から、データ分布が時間とともに変化することが多い。
分散シフトを監視するためのヒューマン・イン・ザ・ループを持つことができ、これらのシフトに応じて新しいアーキテクチャを設計できるが、そのようなセットアップは費用対効果がない。
代わりに、非定常自動ML(AutoML)モデルが必要である。
本稿では,ドメインシフト下での効率的な連続学習のためのEncoder-Adaptor-Reconfigurator(EAR)フレームワークを提案する。
EARフレームワークでは、固定ディープニューラルネットワーク(DNN)機能エンコーダを使用して、エンコーダ上に浅いネットワークをトレーニングして、新たなデータを処理する。
EARフレームワークは使える
1)DNNと超次元計算(HDC)を組み合わせることで、新しいデータが配布外(OOD)になったときの検出
2) zero-shot neural architecture search (zs-nas) を用いたoodデータへのモデル適応のための低パラメータニューラルネットワークの同定
3) 従来のタスクに対する破滅的な忘れを最小化するために, 必要に応じて神経アーキテクチャを段階的に成長させ, ドメイン・インクリメンタル・クラス・インクリメンタル・インクリメンタル・ラーニングを扱うための適切な適応器と再構成器を通じてデータを動的にルーティングする。
我々は,いくつかのベンチマークデータセットにおける提案手法を体系的に評価し,ood検出のための最先端アルゴリズムや数/ゼロショットnasと比較し,高い性能を示す。 Most machine learning (ML) systems assume stationary and matching data distributions during training and deployment. This is often a false assumption. When ML models are deployed on real devices, data distributions often shift over time due to changes in environmental factors, sensor characteristics, and task-of-interest. While it is possible to have a human-in-the-loop to monitor for distribution shifts and engineer new architectures in response to these shifts, such a setup is not cost-effective. Instead, non-stationary automated ML (AutoML) models are needed. This paper presents the Encoder-Adaptor-Reconfigurator (EAR) framework for efficient continual learning under domain shifts. The EAR framework uses a fixed deep neural network (DNN) feature encoder and trains shallow networks on top of the encoder to handle novel data. The EAR framework is capable of 1) detecting when new data is out-of-distribution (OOD) by combining DNNs with hyperdimensional computing (HDC), 2) identifying low-parameter neural adaptors to adapt the model to the OOD data using zero-shot neural architecture search (ZS-NAS), and 3) minimizing catastrophic forgetting on previous tasks by progressively growing the neural architecture as needed and dynamically routing data through the appropriate adaptors and reconfigurators for handling domain-incremental and class-incremental continual learning. We systematically evaluate our approach on several benchmark datasets for domain adaptation and demonstrate strong performance compared to state-of-the-art algorithms for OOD detection and few-/zero-shot NAS. | 翻訳日:2023-10-17 22:56:57 公開日:2023-10-13 |
# 適応型シンボリックアルゴリズムをスクラッチから発見する Discovering Adaptable Symbolic Algorithms from Scratch ( http://arxiv.org/abs/2307.16890v2 ) ライセンス: Link先を確認 | Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real | (参考訳) 現実世界に展開する自律ロボットは、環境の変化に迅速に適応する制御方針を必要とする。
そこで本研究では,ゼロショット適応型ポリシをゼロショットから検出するAutoML-Zero(ARZ)を提案する。
モデルパラメータのみを最適化するニューラルネットワーク適応ポリシーとは対照的に、ARZは線形レジスタマシンの完全な表現力を持つ制御アルゴリズムを構築することができる。
モデルパラメータを調整し、突然の環境変化に対応するために推論アルゴリズムをオンザフライで変更するモジュールポリシーを進化させます。
本手法を現実的な四足歩行ロボットに適用し,個々の手足が突如故障した場合の落下を避けるための安全制御ポリシーを進化させる。
これは、2つの人気のあるニューラルネットワークベースラインが失敗する難しいタスクです。
最後に,本手法の難解な非定常制御タスクである cataclysmic cartpole について詳細な解析を行った。
その結果,ARZは突然の環境変化に対して著しく堅牢であり,簡易かつ解釈可能な制御ポリシーを構築することができることがわかった。 Autonomous robots deployed in the real world will need control policies that rapidly adapt to environmental changes. To this end, we propose AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot adaptable policies from scratch. In contrast to neural network adaptation policies, where only model parameters are optimized, ARZ can build control algorithms with the full expressive power of a linear register machine. We evolve modular policies that tune their model parameters and alter their inference algorithm on-the-fly to adapt to sudden environmental changes. We demonstrate our method on a realistic simulated quadruped robot, for which we evolve safe control policies that avoid falling when individual limbs suddenly break. This is a challenging task in which two popular neural network baselines fail. Finally, we conduct a detailed analysis of our method on a novel and challenging non-stationary control task dubbed Cataclysmic Cartpole. Results confirm our findings that ARZ is significantly more robust to sudden environmental changes and can build simple, interpretable control policies. | 翻訳日:2023-10-17 22:56:17 公開日:2023-10-13 |
# MIS-AVoiDD:オーディオ・ビジュアル・ディープフェイク検出のためのモダリティ不変と特殊表現 MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2310.02234v2 ) ライセンス: Link先を確認 | Vinaya Sree Katamneni and Ajita Rattani | (参考訳) ディープフェイク(Deepfakes)は、ディープ・ジェネレーティブ・アルゴリズムを用いて生成される合成メディアであり、深刻な社会的・政治的脅威を生じさせている。
顔の操作や合成音声以外にも、近年、音声や視覚の操作によって新しいタイプのディープフェイクが登場している。
本研究では,マルチモーダル・ビジュアル・ディープフェイク・ディテクターの新たな世代について検討し,マルチモーダル操作検出のための音声・視覚データに着目した。
既存のマルチモーダル(オーディオ-視覚)ディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
既存の研究では、これらのマルチモーダル検出器は、ユニモーダルオーディオとビジュアルディープフェイク検出器と同等の性能が得られることが示されている。
音声信号と視覚信号の異質性は分布的モダリティギャップを生じさせ,効率的な融合と効率的な性能にとって大きな課題となると推測する。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
具体的には、モーダリティ(音響および視覚)不変量と特定の表現の併用を提案する。
これにより、プリスタンまたはフェイクコンテンツを表す各モダリティに特有の共通パターンやパターンが保存され、マルチモーダルディープフェイク操作検出のために融合される。
FakeAVCelebとKoDFオーディオビジュアルディープフェイクデータセットの実験結果から,SOTAユニモーダルとマルチモーダルオーディオビジュアルディープフェイク検出器をそれぞれ17.8$%と18.4$%で比較することにより,提案手法の精度が向上することが示唆された。
したがって、最先端のパフォーマンスを得る。 Deepfakes are synthetic media generated using deep generative algorithms and have posed a severe societal and political threat. Apart from facial manipulation and synthetic voice, recently, a novel kind of deepfakes has emerged with either audio or visual modalities manipulated. In this regard, a new generation of multimodal audio-visual deepfake detectors is being investigated to collectively focus on audio and visual data for multimodal manipulation detection. Existing multimodal (audio-visual) deepfake detectors are often based on the fusion of the audio and visual streams from the video. Existing studies suggest that these multimodal detectors often obtain equivalent performances with unimodal audio and visual deepfake detectors. We conjecture that the heterogeneous nature of the audio and visual signals creates distributional modality gaps and poses a significant challenge to effective fusion and efficient performance. In this paper, we tackle the problem at the representation level to aid the fusion of audio and visual streams for multimodal deepfake detection. Specifically, we propose the joint use of modality (audio and visual) invariant and specific representations. This ensures that the common patterns and patterns specific to each modality representing pristine or fake content are preserved and fused for multimodal deepfake manipulation detection. Our experimental results on FakeAVCeleb and KoDF audio-visual deepfake datasets suggest the enhanced accuracy of our proposed method over SOTA unimodal and multimodal audio-visual deepfake detectors by $17.8$% and $18.4$%, respectively. Thus, obtaining state-of-the-art performance. | 翻訳日:2023-10-17 22:46:56 公開日:2023-10-13 |
# LLMによる運転: 説明可能な自律運転のためのオブジェクトレベルベクトルモダリティの融合 Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving ( http://arxiv.org/abs/2310.01957v2 ) ライセンス: Link先を確認 | Long Chen, Oleg Sinavski, Jan H\"unermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton | (参考訳) 大規模言語モデル(llm)は自動運転分野、特に一般化と解釈性において有望である。
本稿では,ベクトル化数値モダリティと事前学習されたllmを融合した,ユニークなオブジェクトレベルのマルチモーダルllmアーキテクチャを提案する。
また,教師LLM(GPT-3.5)が生成する質問応答ペアとRLエージェントで収集した高品質な制御コマンドとを組み合わせ,10k運転シナリオから導出した160kQAペアのデータセットを提案する。
ベクターキャプタリング言語データを用いた静的LLM表現と数値ベクトルモダリティを一致させるための事前学習戦略が考案された。
また、運転QAの評価基準を導入し、運転シナリオの解釈、質問への回答、意思決定におけるLCMドライバの熟練度を示す。
本研究は, 従来の行動クローンと比較して, LLMによる運転行動生成の可能性を強調した。
ベンチマークやデータセット、モデルを使って、さらなる調査を行っています。 Large Language Models (LLMs) have shown promise in the autonomous driving sector, particularly in generalization and interpretability. We introduce a unique object-level multimodal LLM architecture that merges vectorized numeric modalities with a pre-trained LLM to improve context understanding in driving situations. We also present a new dataset of 160k QA pairs derived from 10k driving scenarios, paired with high quality control commands collected with RL agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct pretraining strategy is devised to align numeric vector modalities with static LLM representations using vector captioning language data. We also introduce an evaluation metric for Driving QA and demonstrate our LLM-driver's proficiency in interpreting driving scenarios, answering questions, and decision-making. Our findings highlight the potential of LLM-based driving action generation in comparison to traditional behavioral cloning. We make our benchmark, datasets, and model available for further exploration. | 翻訳日:2023-10-17 22:46:04 公開日:2023-10-13 |
# Channel Vision Transformers:画像はC x 16 x 16ワードより価値がある Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words ( http://arxiv.org/abs/2309.16108v3 ) ライセンス: Link先を確認 | Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos | (参考訳) Vision Transformer (ViT) は現代のコンピュータビジョンの領域において強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
これらの領域では、画像はしばしば複数のチャネルを含み、それぞれが意味的に異なる独立した情報を持っている。
さらに、モデルは、トレーニングやテスト中に密に利用できない可能性があるため、入力チャネルの疎結合性に対する堅牢性を示す必要がある。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正と、テスト時間中に部分チャネルのみを表示する場合のロバスト性を保証するための追加の正規化手法として階層型チャネルサンプリング(HCS)を導入する。
提案モデルであるChannelViTは,各入力チャネルから独立してパッチトークンを構築し,各パッチトークンに付加される学習可能なチャネル埋め込みを利用する。
我々は、ImageNet、JUMP-CP(顕微鏡細胞イメージング)、So2Sat(衛星イメージング)におけるChannelViTの性能を評価する。
以上の結果から,channelvit は vit を分類タスクで上回っており,テスト中に入力チャネルのサブセットが使用される場合でもよく一般化できることがわかった。
実験全体を通して、HCSは採用されているアーキテクチャとは独立して強力な正則化器であることが証明され、堅牢なViTトレーニングのための簡単なテクニックであることが示唆された。
最後に、channelvitはトレーニング中にすべてのチャネルへのアクセスが制限された場合でも効果的に一般化し、スパースセンサーを用いた実環境下でのマルチチャネルイメージングの可能性を強調している。
私たちのコードはhttps://github.com/insitro/ChannelViT.comで利用可能です。 Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors. Our code is available at https://github.com/insitro/ChannelViT. | 翻訳日:2023-10-17 22:45:03 公開日:2023-10-13 |
# 合成能力の多重化:合成課題における拡散モデルの探索 Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task ( http://arxiv.org/abs/2310.09336v1 ) ライセンス: Link先を確認 | Maya Okawa, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka | (参考訳) 現代の生成モデルは、非常に現実的なデータを生成する前例のない能力を示している。
しかし、実世界の本質的な構成性を考えると、これらのモデルの実用的利用には、トレーニングデータセットにない出力を生成するための新しい概念セットを構成する能力を示す必要がある。
先行研究は、最近の拡散モデルが興味深い組成一般化能力を示すが、予測不能に失敗することを示した。
そこで本研究では, 条件付き拡散モデルにおける合成拡散モデルの構成一般化の理解, 学習データの属性の相違, サンプルアウトオブディストリビューション生成能力の測定について検討した。
結果はこう示しています
i) 概念からサンプルを生成し,それらを構成する能力が出現する順序は,基礎となるデータ生成プロセスの構造によって支配される。
(ii)構成課題における演出は、構成課題の演出に依拠し、部分的には生成モデルに見られる創発的な現象を説明するため、突然の「緊急」を示す。
(iii) 分布サンプルを生成するためのトレーニングデータの頻度が低い概念を構成するには、分布サンプルを生成するよりもかなり多くの最適化ステップが必要となる。
本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。 Modern generative models exhibit unprecedented capabilities to generate extremely realistic data. However, given the inherent compositionality of the real world, reliable use of these models in practical applications requires that they exhibit the capability to compose a novel set of concepts to generate outputs not seen in the training data set. Prior work demonstrates that recent diffusion models do exhibit intriguing compositional generalization abilities, but also fail unpredictably. Motivated by this, we perform a controlled study for understanding compositional generalization in conditional diffusion models in a synthetic setting, varying different attributes of the training data and measuring the model's ability to generate samples out-of-distribution. Our results show: (i) the order in which the ability to generate samples from a concept and compose them emerges is governed by the structure of the underlying data-generating process; (ii) performance on compositional tasks exhibits a sudden ``emergence'' due to multiplicative reliance on the performance of constituent tasks, partially explaining emergent phenomena seen in generative models; and (iii) composing concepts with lower frequency in the training data to generate out-of-distribution samples requires considerably more optimization steps compared to generating in-distribution samples. Overall, our study lays a foundation for understanding capabilities and compositionality in generative models from a data-centric perspective. | 翻訳日:2023-10-17 22:38:00 公開日:2023-10-13 |
# 確率的メトロポリス・ハスティングの統計的保証 Statistical guarantees for stochastic Metropolis-Hastings ( http://arxiv.org/abs/2310.09335v1 ) ライセンス: Link先を確認 | Sebastian Bieringer, Gregor Kasieczka, Maximilian F. Steffen and Mathias Trabs | (参考訳) メトロポリス・ハスティングスのステップは、不確実な定量化において勾配に基づくマルコフ連鎖モンテカルロ法に広く用いられている。
バッチの受け入れ確率を計算することで、確率的メトロポリスハスティングステップは計算コストを節約するが、効果的なサンプルサイズを削減できる。
この障害を簡単な補正項で回避できることを示す。
補正された確率的メトロポリス・ハstingsアプローチがgibbs後方分布から非パラメトリック回帰設定でサンプルに適用された場合,チェーンの定常分布の統計的性質について検討した。
深層ニューラルネットワークの回帰に着目し, 最適収縮率をもたらすpac-bayes oracle不等式を証明し, 直径を解析し, 信頼性の高い集合の被覆率を示す。
高次元パラメータ空間における数値的な例で、確率的メトロポリス・ハスティングスアルゴリズムの信頼的な集合と収縮速度は、古典的なメトロポリス調整ランゲヴィンアルゴリズムから得られるものと同様の振る舞いを示す。 A Metropolis-Hastings step is widely used for gradient-based Markov chain Monte Carlo methods in uncertainty quantification. By calculating acceptance probabilities on batches, a stochastic Metropolis-Hastings step saves computational costs, but reduces the effective sample size. We show that this obstacle can be avoided by a simple correction term. We study statistical properties of the resulting stationary distribution of the chain if the corrected stochastic Metropolis-Hastings approach is applied to sample from a Gibbs posterior distribution in a nonparametric regression setting. Focusing on deep neural network regression, we prove a PAC-Bayes oracle inequality which yields optimal contraction rates and we analyze the diameter and show high coverage probability of the resulting credible sets. With a numerical example in a high-dimensional parameter space, we illustrate that credible sets and contraction rates of the stochastic Metropolis-Hastings algorithm indeed behave similar to those obtained from the classical Metropolis-adjusted Langevin algorithm. | 翻訳日:2023-10-17 22:37:18 公開日:2023-10-13 |
# 凸性制限のないロバストネスと重み資源対策:静的および動的量子資源理論におけるマルチコピー証人および運用上の優位性 Robustness and weight resource measures without convexity restriction: Multicopy witness and operational advantage in static and dynamical quantum resource theories ( http://arxiv.org/abs/2310.09321v1 ) ライセンス: Link先を確認 | Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki | (参考訳) 量子資源理論(QRT)は、量子情報処理の利点を達成するためのリソースとして量子特性を分析する統一的なフレームワークを提供する。
汎用ロバスト性と資源の重みは有用な資源定量化器として注目されている。
しかし、既存の分析は自由状態の集合の凸性が仮定される場合に限られており、物理的動機づけのある資源は必ずしもこの制限を満たしていない。
本稿では,2つの異なるアプローチによる凸性制限を伴わない一般QRTにおいて,ロバストネスと重みに基づく尺度の特性について述べる。
一方,非線形証人を導入することで,資源の総体的堅牢性と重みを特徴づける。
本稿では,その状態の複数のコピーから与えられた状態の資源性を検出する新しい証人観測器の構築について概説し,この証人を用いて,凸性仮定を伴わずに,上記の資源対策の運用的解釈を行う。
一方,自由状態の集合が複数の制限に対応する凸部分集合からなる場合,一般化されたロバスト性や資源の重み付けは,チャネル識別やチャネル排他タスクの変種において,最悪の場合の最大アドバンテージとして解釈できることがわかった。
さらに、これらの結果を量子チャネルや量子機器のQRTに拡張する。
これらの特徴は、全ての量子資源が、凸性仮定のない一般のQRTにおいても、対応するタスクに有利であることを示している。
そこで,従来の凸QRTの範囲を超えて,ロバストネスと重みに基づく技術の有用性を確立し,QRTの一般的な構造をよりよく理解する。 Quantum resource theories (QRTs) provide a unified framework to analyze quantum properties as resources for achieving advantages in quantum information processing. The generalized robustness and the weight of resource have been gaining increasing attention as useful resource quantifiers. However, the existing analyses of these measures were restricted to the cases where convexity of the set of free states is assumed, and physically motivated resources do not necessarily satisfy this restriction. In this paper, we give characterizations of robustness- and weight-based measures in general QRTs without convexity restriction through two different yet related approaches. On the one hand, we characterize the generalized robustness and the weight of resource by introducing a non-linear witness. We show a general construction of a new witness observable that detects the resourcefulness of a given state from multiple copies of the state and, using this witness, we provide operational interpretations of the above resource measures even without any convexity assumption. On the other hand, we find that the generalized robustness and the weight of resource can also be interpreted as the worst-case maximum advantage in variants of channel-discrimination and channel-exclusion tasks, respectively, where the set of free states consists of several convex subsets corresponding to multiple restrictions. We further extend these results to QRTs for quantum channels and quantum instruments. These characterizations show that every quantum resource exhibits an advantage for the corresponding tasks, even in general QRTs without convexity assumption. Thus, we establish the usefulness of robustness-based and weight-based techniques beyond the conventional scope of convex QRTs, leading to a better understanding of the general structure of QRTs. | 翻訳日:2023-10-17 22:37:00 公開日:2023-10-13 |
# 進化における形態形成能力の役割 Role of Morphogenetic Competency on Evolution ( http://arxiv.org/abs/2310.09318v1 ) ライセンス: Link先を確認 | Lakshwin Shreesha | (参考訳) インテリジェンスと進化の関係は双方向であり、進化はインテリジェンスの発展に役立つが、インテリジェンスそのものが進化に影響を与える可能性がある(Baldwin, 1896)。
進化的計算の分野において、逆関係(進化に関する知性の影響)は生物レベルの振る舞いの観点からアプローチされる(hinton, 1996)。
我々は,3次元世界をナビゲートするシステムの能力だけでなく,他の任意の空間(記述的,解剖学的,生理的など)をナビゲートする能力として,知性の拡大という文脈において,これらの概念を発達的(細胞形態学的)レベルにまで拡張する。
本稿では、解剖学的形態空間をナビゲートするシステムの最小モデルの知性に着目し、形態形成効果の進化力学における問題解決能力の程度と方法を評価する。
この目的のために、シリコの標準的な遺伝的アルゴリズムを用いて人工胚の個体群を進化させる。
人工胚は細胞集合体であり、進化周期内での選択の前に形態的再配列(例えば、調節的発達)を行う能力を与えられた。
モデルの結果, 形態形成能力は進化のダイナミクスを著しく変化させ, 進化は構造遺伝子を完全化するのではなく, 解剖学的知性を改善することを好むことが示された。
これらの観察は、自然界の進化が細胞の能力を複数のスケールで解決し、新しい条件への進化可能性と堅牢性を高めるのに活用している可能性を示唆している。
我々は, 発達生物学と人工生命コミュニティにおける研究成果の意義について論じる。 The relationship between intelligence and evolution is bidirectional: while evolution can help evolve intelligences, the degree of intelligence itself can impact evolution (Baldwin, 1896). In the field of Evolutionary Computation, the inverse relationship (impact of intelligence on evolution) is approached from the perspective of organism level behaviour (Hinton, 1996). We extend these ideas to the developmental (cellular morphogenetic) level in the context of an expanded view of intelligence as not only the ability of a system to navigate the three-dimensional world, but also as the ability to navigate other arbitrary spaces (transcriptional, anatomical, physiological, etc.). Here, we specifically focus on the intelligence of a minimal model of a system navigating anatomical morphospace, and assess how the degree and manner of problem solving competency during morphogenesis effects evolutionary dynamics. To this end, we evolve populations of artificial embryos using a standard genetic algorithm in silico. Artificial embryos were cellular collectives given the capacity to undergo morphogenetic rearrangement (e.g., regulative development) prior to selection within an evolutionary cycle. Results from our model indicates that morphogenetic competency significantly alters evolutionary dynamics, with evolution preferring to improve anatomical intelligence rather than perfect the structural genes. These observations hint that evolution in the natural world may be leveraging the problem solving competencies of cells at multiple scales to boost evolvability and robustness to novel conditions. We discuss implications of our results for the Developmental Biology and Artificial Life communities. | 翻訳日:2023-10-17 22:36:30 公開日:2023-10-13 |
# 大言語と視覚言語モデルを用いた横断障害のある環境におけるインタラクティブナビゲーション Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models ( http://arxiv.org/abs/2310.08873v1 ) ライセンス: Link先を確認 | Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou, and K. W. Samuel Au | (参考訳) 本稿では,大規模言語モデルと視覚言語モデルを用いた対話型ナビゲーションフレームワークを提案する。
我々は,大規模言語モデル (GPT-3.5) とオープンセットのビジョン言語モデル (Grounding DINO) を用いて,アクション対応のコストマップを作成し,微調整なしで効果的な経路計画を行う。
大規模モデルでは,「薬を私に届けるためにカーテンを通すことができるか?」というテキスト指示から,アクションアウェア属性のバウンディングボックス(例えばカーテン)まで,エンドツーエンドシステムを実現することができる。
それらはLiDARの点雲を2つの部分に分けられる: トラバース可能と非トラバース可能の2つの部分、そして、実行可能なパスを生成するためにアクション対応のコストマップを構築する。
事前訓練された大きなモデルは、高度な一般化能力を持ち、トレーニングのために追加の注釈付きデータを必要としないため、インタラクティブなナビゲーションタスクの迅速な展開が可能になる。
我々は,カーテンや草などの複数のトラバータブルオブジェクトを使用して,ロボットにトラバースを指示することで検証を行う。
さらに、医療シナリオでカーテンを横切るテストも行われた。
すべての実験結果から,提案手法の有効性と多様な環境への適応性が示された。 This paper proposes an interactive navigation framework by using large language and vision-language models, allowing robots to navigate in environments with traversable obstacles. We utilize the large language model (GPT-3.5) and the open-set Vision-language Model (Grounding DINO) to create an action-aware costmap to perform effective path planning without fine-tuning. With the large models, we can achieve an end-to-end system from textual instructions like "Can you pass through the curtains to deliver medicines to me?", to bounding boxes (e.g., curtains) with action-aware attributes. They can be used to segment LiDAR point clouds into two parts: traversable and untraversable parts, and then an action-aware costmap is constructed for generating a feasible path. The pre-trained large models have great generalization ability and do not require additional annotated data for training, allowing fast deployment in the interactive navigation tasks. We choose to use multiple traversable objects such as curtains and grasses for verification by instructing the robot to traverse them. Besides, traversing curtains in a medical scenario was tested. All experimental results demonstrated the proposed framework's effectiveness and adaptability to diverse environments. | 翻訳日:2023-10-17 22:36:03 公開日:2023-10-13 |
# Certifying $\ell_p$ Robustnessはまだ価値はあるのか? Is Certifying $\ell_p$ Robustness Still Worthwhile? ( http://arxiv.org/abs/2310.09361v1 ) ライセンス: Link先を確認 | Ravi Mangal, Klas Leino, Zifan Wang, Kai Hu, Weicheng Yu, Corina Pasareanu, Anupam Datta, Matt Fredrikson | (参考訳) 何年にもわたって、敵対的な例を多用する無数の攻撃や、そのような攻撃によって引き起こされるセキュリティ上の脆弱性を防ごうとする防衛策が開発されてきた。
この論文に特に興味があるのは、$\ell_p$-bounded 攻撃のクラスに対して証明可能な保証を提供する防御である。
認証された防御は大きな進歩を遂げており、おもちゃのモデルやデータセットからImageNet分類のような大規模な問題への堅牢性認証を取り入れている。
これは興味深い学術的問題であることは間違いないが、この分野が成熟した今、その実践への影響は未だ不明であり、この研究を継続する動機を再考することは有用である。
この調査には3つのレイヤがあり、本論文で取り上げている。(1) 堅牢性の研究になぜ関心があるのか?
(2) なぜ$\ell_p$-bounded threatモデルに関心があるのか?
(3)実証的な防御とは対照的に、認証をどう扱うのか?
簡単に言えば、局所ロバスト性認証は実際に機械学習の分野に実用的価値を与えるという立場を取る。
特に上記の2つの質問に焦点を合わせます。
セキュリティクリティカルな領域におけるモデルの安全な適用には,$\ell_p$-bounded threat modelが最小限の要件として機能する一方で,局所ロバスト性は,ロバスト性とは無関係な下流外的メリットをもたらす可能性が示唆されている。
2番目については、我々は議論する。
(i)敵の攻撃のキャット・アンド・モーズゲームに対する解決法、更にその解決法
(ii) 一般の信条に反し、正確性、堅牢性、証明性の間には根本的なトレードオフは存在せず、さらに、認定された訓練技術は、堅牢なモデルを学ぶ上で特に有望な方法である。 Over the years, researchers have developed myriad attacks that exploit the ubiquity of adversarial examples, as well as defenses that aim to guard against the security vulnerabilities posed by such attacks. Of particular interest to this paper are defenses that provide provable guarantees against the class of $\ell_p$-bounded attacks. Certified defenses have made significant progress, taking robustness certification from toy models and datasets to large-scale problems like ImageNet classification. While this is undoubtedly an interesting academic problem, as the field has matured, its impact in practice remains unclear, thus we find it useful to revisit the motivation for continuing this line of research. There are three layers to this inquiry, which we address in this paper: (1) why do we care about robustness research? (2) why do we care about the $\ell_p$-bounded threat model? And (3) why do we care about certification as opposed to empirical defenses? In brief, we take the position that local robustness certification indeed confers practical value to the field of machine learning. We focus especially on the latter two questions from above. With respect to the first of the two, we argue that the $\ell_p$-bounded threat model acts as a minimal requirement for safe application of models in security-critical domains, while at the same time, evidence has mounted suggesting that local robustness may lead to downstream external benefits not immediately related to robustness. As for the second, we argue that (i) certification provides a resolution to the cat-and-mouse game of adversarial attacks; and furthermore, that (ii) perhaps contrary to popular belief, there may not exist a fundamental trade-off between accuracy, robustness, and certifiability, while moreover, certified training techniques constitute a particularly promising way for learning robust models. | 翻訳日:2023-10-17 22:25:54 公開日:2023-10-13 |
# ReLUニューラルコントロールバリア関数の厳密な検証 Exact Verification of ReLU Neural Control Barrier Functions ( http://arxiv.org/abs/2310.09360v1 ) ライセンス: Link先を確認 | Hongchao Zhang, Junlin Wu, Yevgeniy Vorobeychik, Andrew Clark | (参考訳) 制御バリア関数(CBF)は非線形システムの安全な制御のための一般的なアプローチである。
CBFベースの制御では、システムの所望の安全性特性をCBFの非負性にマッピングし、CBFが常に負であることを保証するために制御入力を選択する。
近年, CBFをニューラルネットワーク(神経制御バリア関数, NCBF)として表現する機械学習手法は, ニューラルネットワークの普遍的表現性から, 大いに期待されている。
しかしながら、学習したCBFが安全性を保証することを検証することは、依然として困難な研究課題である。
本稿では,ReLU アクティベーション機能付きフィードフォワード NCBF の安全性を検証するための,新しい正確な条件とアルゴリズムを提案する。
これを行う上での鍵となる課題は、ReLU関数の断片的線型性のため、NCBFは特定の点で微分不可能となり、滑らかなバリア関数を仮定する従来の安全検証方法を無効にすることである。
我々は,非滑らかな境界を持つ集合の不変性を証明するために,ナグモの定理の一般化を利用して,安全に必要な十分条件を導出する。
この条件に基づいて,まずNCBFを一括線形セグメントに分解し,各セグメントの安全性と線形セグメントの交点を検証するための非線形プログラムを解くNCBFの安全性検証アルゴリズムを提案する。
安全な領域の境界を考慮し、区間境界伝播(ibp)と線形緩和でセグメントを刈り取ることにより、複雑さを緩和する。
我々は,最新のSMT法と比較し,数値解析によるアプローチの評価を行った。
私たちのコードはhttps://github.com/hongchaozhang-hz/exactverif-reluncbf-nips23で利用可能です。 Control Barrier Functions (CBFs) are a popular approach for safe control of nonlinear systems. In CBF-based control, the desired safety properties of the system are mapped to nonnegativity of a CBF, and the control input is chosen to ensure that the CBF remains nonnegative for all time. Recently, machine learning methods that represent CBFs as neural networks (neural control barrier functions, or NCBFs) have shown great promise due to the universal representability of neural networks. However, verifying that a learned CBF guarantees safety remains a challenging research problem. This paper presents novel exact conditions and algorithms for verifying safety of feedforward NCBFs with ReLU activation functions. The key challenge in doing so is that, due to the piecewise linearity of the ReLU function, the NCBF will be nondifferentiable at certain points, thus invalidating traditional safety verification methods that assume a smooth barrier function. We resolve this issue by leveraging a generalization of Nagumo's theorem for proving invariance of sets with nonsmooth boundaries to derive necessary and sufficient conditions for safety. Based on this condition, we propose an algorithm for safety verification of NCBFs that first decomposes the NCBF into piecewise linear segments and then solves a nonlinear program to verify safety of each segment as well as the intersections of the linear segments. We mitigate the complexity by only considering the boundary of the safe region and by pruning the segments with Interval Bound Propagation (IBP) and linear relaxation. We evaluate our approach through numerical studies with comparison to state-of-the-art SMT-based methods. Our code is available at https://github.com/HongchaoZhang-HZ/exactverif-reluncbf-nips23. | 翻訳日:2023-10-17 22:25:18 公開日:2023-10-13 |
# Banditsはいつミス種別にロバストなのか? When are Bandits Robust to Misspecification? ( http://arxiv.org/abs/2310.09358v1 ) ライセンス: Link先を確認 | Debangshu Banerjee and Aditya Gopalan | (参考訳) パラメトリック特徴に基づく報酬モデルは、バンディットやコンテキストバンディットなどの意思決定設定にアルゴリズムによって広く使われている。
それらが分析される典型的な仮定は実現可能性であり、すなわち、アクションの真の報酬はクラス内のパラメトリックモデルによって完全に説明される。
しかし、真の報酬がモデルクラスに関して(潜在的に重要な)不特定化されている状況に興味があります。
パラメータ化されたバンディットや文脈のバンディットについては、問題インスタンスやモデルクラスに応じて十分な条件を特定し、そこでは$\epsilon$-greedy や linucb のような古典的なアルゴリズムは、非常に不特定の報酬の下での後悔の保証を(時間軸において)享受する。
これは、時とともに線形にスケールする後悔の境界を示す不特定のバンディットに対する既存の最悪の結果とは対照的であり、誤った特定にロバストなバンディットインスタンスの非自明で大きな集合が存在することを示している。 Parametric feature-based reward models are widely employed by algorithms for decision making settings such as bandits and contextual bandits. The typical assumption under which they are analysed is realizability, i.e., that the true rewards of actions are perfectly explained by some parametric model in the class. We are, however, interested in the situation where the true rewards are (potentially significantly) misspecified with respect to the model class. For parameterized bandits and contextual bandits, we identify sufficient conditions, depending on the problem instance and model class, under which classic algorithms such as $\epsilon$-greedy and LinUCB enjoy sublinear (in the time horizon) regret guarantees under even grossly misspecified rewards. This is in contrast to existing worst-case results for misspecified bandits which show regret bounds that scale linearly with time, and shows that there can be a nontrivially large set of bandit instances that are robust to misspecification. | 翻訳日:2023-10-17 22:24:47 公開日:2023-10-13 |
# アメリカの詩のスタイルに対する計算的アプローチ A Computational Approach to Style in American Poetry ( http://arxiv.org/abs/2310.09357v1 ) ライセンス: Link先を確認 | David M. Kaplan, David M. Blei | (参考訳) 我々は,アメリカの詩のスタイルを定量的に評価し,詩集を相互に視覚化する手法を開発した。
質的な詩批判は,様々な正書法,構文,音韻の特徴を分析する指標の開発に寄与した。
これらの特徴は、詩の多層潜在構造から包括的な様式的情報を発見し、この空間における詩間の距離を計算するために用いられる。
可視化は分析コンポーネントへの準備ができているアクセスを提供する。
本手法をいくつかの詩集で示し,典型的なテキスト解析アルゴリズムで使用される従来の単語出現の特徴よりも詩文の表現様式が優れていることを示す。
本手法は,テキストの学術的研究,詩に対する直感的反応の研究,お気に入りの詩に基づいて読者に推薦を行うことに潜在的に応用できる。 We develop a quantitative method to assess the style of American poems and to visualize a collection of poems in relation to one another. Qualitative poetry criticism helped guide our development of metrics that analyze various orthographic, syntactic, and phonemic features. These features are used to discover comprehensive stylistic information from a poem's multi-layered latent structure, and to compute distances between poems in this space. Visualizations provide ready access to the analytical components. We demonstrate our method on several collections of poetry, showing that it better delineates poetry style than the traditional word-occurrence features that are used in typical text analysis algorithms. Our method has potential applications to academic research of texts, to research of the intuitive personal response to poetry, and to making recommendations to readers based on their favorite poems. | 翻訳日:2023-10-17 22:24:28 公開日:2023-10-13 |
# 神経情報検索のための教師なし領域適応 Unsupervised Domain Adaption for Neural Information Retrieval ( http://arxiv.org/abs/2310.09350v1 ) ライセンス: Link先を確認 | Carlos Dominguez, Jon Ander Campos, Eneko Agirre, Gorka Azkune | (参考訳) ニューラル情報検索には、各ターゲットドメインが競争力を持つためには、高価な注釈付きデータが必要である。
大規模な言語モデルや規則に基づく文字列操作を用いたクエリ生成による合成アノテーションが代替案として提案されているが,その相対的なメリットは分析されていない。
本稿では,この2つの手法を同一のニューラルIRアーキテクチャを用いて比較する。
我々は、トレーニングデータを持たない複数のドメインからのテストデータセットを含むBEIRベンチマークに注目し、ゼロショット(zero-shot)、教師付きシステムが大規模なドメイン外データセット(MS-MARCO)でトレーニングされるゼロショット(zero-shot)、および教師なしドメイン適応(unsupervised domain adapt)という2つのシナリオを探る。
以上の結果から,大規模言語モデルではすべてのシナリオにおいてルールベースの手法よりも大きなマージンで優れており,非教師なしのドメイン適応はゼロショット方式で制御されたIRシステムを適用するよりも効果的であることが示唆された。
さらに、オープンな大規模言語モデルを用いて合成データを生成し、中規模モデルで十分であることを示す。
コードとモデルは再現性のために公開されている。 Neural information retrieval requires costly annotated data for each target domain to be competitive. Synthetic annotation by query generation using Large Language Models or rule-based string manipulation has been proposed as an alternative, but their relative merits have not been analysed. In this paper, we compare both methods head-to-head using the same neural IR architecture. We focus on the BEIR benchmark, which includes test datasets from several domains with no training data, and explore two scenarios: zero-shot, where the supervised system is trained in a large out-of-domain dataset (MS-MARCO); and unsupervised domain adaptation, where, in addition to MS-MARCO, the system is fine-tuned in synthetic data from the target domain. Our results indicate that Large Language Models outperform rule-based methods in all scenarios by a large margin, and, more importantly, that unsupervised domain adaptation is effective compared to applying a supervised IR system in a zero-shot fashion. In addition we explore several sizes of open Large Language Models to generate synthetic data and find that a medium-sized model suffices. Code and models are publicly available for reproducibility. | 翻訳日:2023-10-17 22:24:15 公開日:2023-10-13 |
# 効率的なApple成熟度と損傷評価:GANと注意機構を備えた軽量検出モデル Efficient Apple Maturity and Damage Assessment: A Lightweight Detection Model with GAN and Attention Mechanism ( http://arxiv.org/abs/2310.09347v1 ) ライセンス: Link先を確認 | Yufei Liu, Manzhou Li, Qin Ma | (参考訳) 本研究は,リンゴの熟度と損傷レベル検出タスクのための,軽量畳み込みニューラルネットワーク(CNN)と生成敵ネットワーク(GAN)に基づく手法を提案する。
当初、軽量cnnモデルは、モデルの深さと幅を最適化し、高度なモデル圧縮技術を使用し、モデルのパラメータと計算要件をうまく削減し、実用的なアプリケーションでのリアルタイムパフォーマンスを向上させることで設計されている。
同時に注意機構を導入し、異なる特徴層の重要性を動的に調整し、オブジェクト検出タスクの性能を向上させる。
サンプル不均衡とサンプルサイズ不足の問題に対処するため、GANはリアルなリンゴ画像を生成し、トレーニングデータセットを拡張し、様々な熟度と損傷レベルのリンゴに直面した場合のモデルの認識能力を向上するために使用される。
さらに、損傷リンゴの損傷位置アノテーションにオブジェクト検出ネットワークを適用することにより、損傷レベル検出の精度を向上し、より正確な意思決定基盤を提供する。
実験結果から,リンゴ熟度劣化検出では, それぞれ95.6\%, 93.8\%, 95.0\%, 56.5の精度, リコール, 精度, FPSが得られた。
リンゴの損傷レベル検出では,提案モデルはそれぞれ95.3\%,93.7\%,94.5\%の精度,リコール,mAPに達する。
いずれのタスクにおいても,提案手法は他の主流モデルよりも優れ,リンゴ熟度および損傷レベル検出タスクにおいて,提案手法の優れた性能と高い実用性を示す。 This study proposes a method based on lightweight convolutional neural networks (CNN) and generative adversarial networks (GAN) for apple ripeness and damage level detection tasks. Initially, a lightweight CNN model is designed by optimizing the model's depth and width, as well as employing advanced model compression techniques, successfully reducing the model's parameter and computational requirements, thus enhancing real-time performance in practical applications. Simultaneously, attention mechanisms are introduced, dynamically adjusting the importance of different feature layers to improve the performance in object detection tasks. To address the issues of sample imbalance and insufficient sample size, GANs are used to generate realistic apple images, expanding the training dataset and enhancing the model's recognition capability when faced with apples of varying ripeness and damage levels. Furthermore, by applying the object detection network for damage location annotation on damaged apples, the accuracy of damage level detection is improved, providing a more precise basis for decision-making. Experimental results show that in apple ripeness grading detection, the proposed model achieves 95.6\%, 93.8\%, 95.0\%, and 56.5 in precision, recall, accuracy, and FPS, respectively. In apple damage level detection, the proposed model reaches 95.3\%, 93.7\%, and 94.5\% in precision, recall, and mAP, respectively. In both tasks, the proposed method outperforms other mainstream models, demonstrating the excellent performance and high practical value of the proposed method in apple ripeness and damage level detection tasks. | 翻訳日:2023-10-17 22:23:53 公開日:2023-10-13 |
# コモンセンス対応会話エージェントの対話連鎖蒸留 Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents ( http://arxiv.org/abs/2310.09343v1 ) ライセンス: Link先を確認 | Hyungjoo Chae, Yongho Song, Kai Tzu-iunn Ong, Taeyoon Kwon, Minjin Kim, Youngjae Yu, Dongha Lee, Dongyeop Kang, Jinyoung Yeo | (参考訳) 人間のようなチャットボットは、会話の中で暗黙の情報を効果的に理解し、応答するために、常識推論の使用を必要とする。
しかし、そのような一貫性と応答のインフォマティブ性を達成することは、非自明なタスクである。
大きな言語モデル(llm)であっても、単一のホップ内で重要なエビデンスを識別し集約する作業は大きな課題となる。
この複雑さは、そのような証拠が会話中の複数のターンに散在するため、複数のホップ上の統合を必要とする。
したがって、対話コンテキスト、すなわち対話連鎖思考(CoT)推論において、このようなマルチホップ推論を促進することに注力する。
そこで本研究では,LLMを信頼できない教師として活用し,アライメントフィルタによる一貫した有理性を選択的に蒸留する知識蒸留フレームワークを提案する。
さらに、応答生成のための信頼性の高い CoT 論理を提供する DialOgue Chain-of-ThOught Reasoner である DOCTOR について述べる。
我々は,DOCTORから高品質な理性を持つ対話エージェントの強化が応答の質を著しく向上することを示すため,広範囲な実験を行った。 Human-like chatbots necessitate the use of commonsense reasoning in order to effectively comprehend and respond to implicit information present within conversations. Achieving such coherence and informativeness in responses, however, is a non-trivial task. Even for large language models (LLMs), the task of identifying and aggregating key evidence within a single hop presents a substantial challenge. This complexity arises because such evidence is scattered across multiple turns in a conversation, thus necessitating integration over multiple hops. Hence, our focus is to facilitate such multi-hop reasoning over a dialogue context, namely dialogue chain-of-thought (CoT) reasoning. To this end, we propose a knowledge distillation framework that leverages LLMs as unreliable teachers and selectively distills consistent and helpful rationales via alignment filters. We further present DOCTOR, a DialOgue Chain-of-ThOught Reasoner that provides reliable CoT rationales for response generation. We conduct extensive experiments to show that enhancing dialogue agents with high-quality rationales from DOCTOR significantly improves the quality of their responses. | 翻訳日:2023-10-17 22:23:26 公開日:2023-10-13 |
# プログラム検証のためのLLM生成ループ不変量ランキング Ranking LLM-Generated Loop Invariants for Program Verification ( http://arxiv.org/abs/2310.09342v1 ) ライセンス: Link先を確認 | Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy | (参考訳) 帰納ループ不変量の合成は、プログラム検証の自動化に不可欠である。
本稿では,大規模言語モデル(gpt-3.5 や gpt-4 など)が,0-shot 設定のプログラムのクラスに対してループ不変量の合成が可能であるが,正しい不変量を生成するにはいくつかのサンプルが必要であることを検証した。
これは、不変性を確立するためのプログラム検証者への多数の呼び出しにつながる可能性がある。
この問題に対処するために, LLM の生成結果に対して, {\it re-level} アプローチを提案する。
我々は問題定義に基づいて正しい帰納的不変量と誤った試みを区別できるランク付け器を設計した。
ランク付けは対照的なランク付けに最適化されている。
実験結果から、この再ランク機構は、生成した候補の正しい不変量ランキングを大幅に改善し、検証者への呼び出し数が顕著に減少することを示した。 Synthesizing inductive loop invariants is fundamental to automating program verification. In this work, we observe that Large Language Models (such as gpt-3.5 or gpt-4) are capable of synthesizing loop invariants for a class of programs in a 0-shot setting, yet require several samples to generate the correct invariants. This can lead to a large number of calls to a program verifier to establish an invariant. To address this issue, we propose a {\it re-ranking} approach for the generated results of LLMs. We have designed a ranker that can distinguish between correct inductive invariants and incorrect attempts based on the problem definition. The ranker is optimized as a contrastive ranker. Experimental results demonstrate that this re-ranking mechanism significantly improves the ranking of correct invariants among the generated candidates, leading to a notable reduction in the number of calls to a verifier. | 翻訳日:2023-10-17 22:23:08 公開日:2023-10-13 |
# 地理知識誘導型GPTモデルによる災害関連ソーシャルメディアメッセージからの位置情報記述の抽出 Geo-knowledge-guided GPT models improve the extraction of location descriptions from disaster-related social media messages ( http://arxiv.org/abs/2310.09340v1 ) ライセンス: Link先を確認 | Yingjie Hu, Gengchen Mai, Chris Cundy, Kristy Choi, Ni Lao, Wei Liu, Gaurish Lakhanpal, Ryan Zhenqi Zhou, Kenneth Joseph | (参考訳) 自然災害時に人々が投稿したソーシャルメディアのメッセージには、被害者の場所などの重要な位置説明が含まれていることが多い。
近年の研究では、これらの位置記述の多くは都市名や通り名といった単純な地名以上のものであり、典型的名前付きエンティティ認識(ner)ツールを用いると抽出が困難であることが示されている。
高度な機械学習モデルをトレーニングすることは可能だが、作成に要する時間と労力を要する大きなラベル付きトレーニングデータセットが必要になる。
本研究では、位置記述のジオ知識と、ChatGPTやGPT-4のような生成前変換器(GPT)モデルを融合する手法を提案する。
その結果,災害関連ソーシャルメディアから位置情報を正確に抽出できる地理知識誘導型GPTモデルが得られた。
また,geo-knowledgeをエンコードするトレーニング例は22例のみである。
この手法をハリケーン・ハーベイのツイートのデータセット上で9つの代替手法と比較する実験を行った。
本手法は,一般的なnerアプローチよりも40%以上改善することを示す。
また, GPTモデルの振舞いを導くためにはジオ知識が不可欠であることを示す。
抽出された場所の説明は、災害対応者がより早く犠牲者にたどり着くのに役立つ。 Social media messages posted by people during natural disasters often contain important location descriptions, such as the locations of victims. Recent research has shown that many of these location descriptions go beyond simple place names, such as city names and street names, and are difficult to extract using typical named entity recognition (NER) tools. While advanced machine learning models could be trained, they require large labeled training datasets that can be time-consuming and labor-intensive to create. In this work, we propose a method that fuses geo-knowledge of location descriptions and a Generative Pre-trained Transformer (GPT) model, such as ChatGPT and GPT-4. The result is a geo-knowledge-guided GPT model that can accurately extract location descriptions from disaster-related social media messages. Also, only 22 training examples encoding geo-knowledge are used in our method. We conduct experiments to compare this method with nine alternative approaches on a dataset of tweets from Hurricane Harvey. Our method demonstrates an over 40% improvement over typically used NER approaches. The experiment results also show that geo-knowledge is indispensable for guiding the behavior of GPT models. The extracted location descriptions can help disaster responders reach victims more quickly and may even save lives. | 翻訳日:2023-10-17 22:22:52 公開日:2023-10-13 |
# 生成的アプローチによる不確かさ定量化 Uncertainty Quantification using Generative Approach ( http://arxiv.org/abs/2310.09338v1 ) ライセンス: Link先を確認 | Yunsheng Zhang | (参考訳) 本稿では,深い生成手法を用いた深部ニューラルネットワークにおける不確実性の測定を目的としたインクリメンタル生成モンテカルロ法を提案する。
IGMCは生成モデルを反復的に訓練し、その出力をデータセットに追加し、ランダム変数の期待の後方分布を計算する。
IGMCの収束速度を試料サイズと試料深度に対して理論的に保証する。
IGMCは、深い生成アプローチと互換性があるため、ニューラルネットワークの分類と回帰の両方に適応できる。
MNIST桁分類タスクにおけるIGMCの挙動を実証的に研究する。 We present the Incremental Generative Monte Carlo (IGMC) method, designed to measure uncertainty in deep neural networks using deep generative approaches. IGMC iteratively trains generative models, adding their output to the dataset, to compute the posterior distribution of the expectation of a random variable. We provide a theoretical guarantee of the convergence rate of IGMC relative to the sample size and sampling depth. Due to its compatibility with deep generative approaches, IGMC is adaptable to both neural network classification and regression tasks. We empirically study the behavior of IGMC on the MNIST digit classification task. | 翻訳日:2023-10-17 22:22:31 公開日:2023-10-13 |
# 開量子系におけるエッジモードと対称性保護位相状態 Edge modes and symmetry-protected topological states in open quantum systems ( http://arxiv.org/abs/2310.09406v1 ) ライセンス: Link先を確認 | Dawid Paszko, Dominic C. Rose, Marzena H. Szyma\'nska, Arijeet Pal | (参考訳) 位相秩序は不完全性に免疫のある量子情報を処理する可能性を提供する。
しかし、平衡から外れた安定性の問題は、環境との結合が避けられない実験に関係している。
この研究は、開量子系のリンドブラッドおよび量子軌道形式における幅広い散逸チャネルに対する、Z_2 \times Z_2$対称性保護トポロジカル(SPT)オーダーのある種の側面の堅牢性を示す。
これはパウリ弦跳躍作用素と共に1次元の$ZXZ$クラスタハミルトニアンを用いて説明される。
強対称性を保った散逸の選択は、2つの非局所論理量子ビットからなる定常状態多様体をサポートし、大域的対称性を保ったハミルトン摂動に対しては、多様体は長生きする。
対照的に、この準安定性は上記の対称性を破って破壊される。
クラスタの局所化されたエッジ量子ビットはリンドブラジアン進化によって保存されないが、弱い対称性に対応しており、量子軌道における初期状態の記憶を常に保持している。
この特徴を利用して、ジャンプやエラー軽減の監視によって量子情報を取得するプロトコルを構築する。
そこで本研究では,散逸性spt相のダイナミクスを研究するための新しい枠組みを提案し,量子情報処理に関連する工学的絡み合い状態の可能性を開く。 Topological order offers possibilities for processing quantum information which can be immune to imperfections. However, the question of its stability out of equilibrium is relevant for experiments, where coupling to an environment is unavoidable. In this work we demonstrate the robustness of certain aspects of $Z_2 \times Z_2$ symmetry-protected topological (SPT) order against a wide class of dissipation channels in the Lindblad and quantum trajectory formalisms of an open quantum system. This is illustrated using the one-dimensional $ZXZ$ cluster Hamiltonian along with Pauli-string jump operators. We show that certain choices of dissipation retaining strong symmetries support a steady-state manifold consisting of two non-local logical qubits, and for Hamiltonian perturbations preserving the global symmetry, the manifold remains long-lived. In contrast, this metastability is destroyed upon breaking the above-mentioned symmetry. While the localized edge qubits of the cluster Hamiltonian are not conserved by the Lindbladian evolution, they do correspond to weak symmetries and thus retain a memory of their initial state at all times in the quantum trajectories. We utilize this feature to construct protocols to retrieve the quantum information either by monitoring jumps or error mitigation. Our work thus proposes a novel framework to study the dynamics of dissipative SPT phases and opens the possibility of engineering entangled states relevant to quantum information processing. | 翻訳日:2023-10-17 20:45:22 公開日:2023-10-13 |
# CIDER:正確なパーソナライズされたニュースレコメンデーションのためのカテゴリーガイド付きインテント・ディスタングル CIDER: Category-Guided Intent Disentanglement for Accurate Personalized News Recommendation ( http://arxiv.org/abs/2310.09401v1 ) ライセンス: Link先を確認 | Yunyong Ko, Seongeun Ryu, Sang-Wook Kim | (参考訳) パーソナライズされたニュースレコメンデーションは、ユーザーの情報過負荷の軽減に重要な役割を果たしているニュース記事の発見を支援することを目的としている。
より優れたユーザとニュース表現のために、近年多くの研究が行われてきたが、以下の課題はめったに研究されていない: (C1) ニュース記事内で結合された意図の範囲を正確に理解する方法?
と (C2) クリック履歴におけるニュース記事の好みの異なるニュース記事の区別方法
そこで本稿では,(1)(c1)に対するカテゴリー誘導型意図不整合,(2)(c2)のための一貫性に基づくニュース表現を用いた,新たなパーソナライズドニュースレコメンデーションフレームワーク(cider)を提案する。
さらに,CIDERの訓練プロセスにカテゴリ予測を組み込むことにより,意図のゆがみを高めるための補助的な監視信号を提供する。
2つの実世界のデータセットに対する大規模な実験により、(1)CIDERは、7つの最先端ニュースレコメンデーション手法に対して一貫した性能改善を提供し、(2)提案手法はCIDERのモデル精度を著しく向上させることがわかった。 Personalized news recommendation aims to assist users in finding news articles that align with their interests, which plays a pivotal role in mitigating users' information overload problem. Although many recent works have been studied for better user and news representations, the following challenges have been rarely studied: (C1) How to precisely comprehend a range of intents coupled within a news article? and (C2) How to differentiate news articles with varying post-read preferences in users' click history? To tackle both challenges together, in this paper, we propose a novel personalized news recommendation framework (CIDER) that employs (1) category-guided intent disentanglement for (C1) and (2) consistency-based news representation for (C2). Furthermore, we incorporate a category prediction into the training process of CIDER as an auxiliary task, which provides supplementary supervisory signals to enhance intent disentanglement. Extensive experiments on two real-world datasets reveal that (1) CIDER provides consistent performance improvements over seven state-of-the-art news recommendation methods and (2) the proposed strategies significantly improve the model accuracy of CIDER. | 翻訳日:2023-10-17 20:44:58 公開日:2023-10-13 |
# ドレス励起状態を用いたIn situサブ波長量子ガス顕微鏡 In situ subwavelength quantum gas microscopy using dressed excited states ( http://arxiv.org/abs/2310.09396v1 ) ライセンス: Link先を確認 | Romain Veyron, Jean-Baptiste G\'erent, Guillaume Baclet, Vincent Mancois, Philippe Bouyer and Simon Bernon | (参考訳) 本研究では,量子ガス顕微鏡実験におけるサブ波長分解能の研究と実証を行う。
本手法は, 励起状態間のレーザー駆動相互作用を用いて, サブ波長スケールにおける超微細な基底状態の移動を設計できる。
この方法の性能は、まず顕微鏡の光学分解能内で単一のサブ波長の体積を励起することで特徴づけられる。
これらの測定は、3レベルシステムモデルの解析解と定量的に一致しており、任意の光場構成に対するこの手法の能力を理解し予測することができる。
概念実証として、この散乱特性のサブ波長制御は、密閉された1次元光学格子で作成された高調波振動子長30nmの縦波関数である回折制限対象を撮像するために適用される。
この目的のために、まず1つのサイトを保持でき、次にナノメトリック原子密度プロファイルを解決できることを実証する。 In this work, we study and demonstrate subwavelength resolutions in a quantum gas microscope experiment. The method that we implement uses the laser driven interaction between excited states to engineer hyperfine ground state population transfer on subwavelength scales. The performance of the method is first characterized by exciting a single subwavelength volume within the optical resolution of the microscope. These measurements are in quantitative agreement with the analytical solution of a three-level system model which allows to understand and predict the capabilities of this method for any light field configuration. As a proof of concept, this subwavelength control of the scattering properties is then applied to image a diffraction-limited object: a longitudinal wavefunction with a harmonic oscillator length of 30 nm that was created in a tightly confined 1D optical lattice. For this purpose, we first demonstrate the ability to keep one single site and then to resolve its nano-metric atomic density profile. | 翻訳日:2023-10-17 20:44:35 公開日:2023-10-13 |
# レジリエントなマルチユーザセマンティックコミュニケーションのための分割学習によるセマンティックアライメント Semantics Alignment via Split Learning for Resilient Multi-User Semantic Communication ( http://arxiv.org/abs/2310.09394v1 ) ライセンス: Link先を確認 | Jinhyuk Choi, Jihong Park, Seung-Woo Ko, Jinho Choi, Mehdi Bennis, Seong-Lyun Kim | (参考訳) 近年のセマンティックコミュニケーションの研究は、ディープジョイントソースやチャネルコーディング(DeepJSCC)のようなニューラルネットワーク(NN)ベースのトランシーバに依存している。
従来のトランシーバーとは異なり、これらのニューラルトランスシーバーは実際のソースデータとチャネルを使って訓練でき、意味論を抽出し、伝達することができる。
反対に、各神経トランシーバは本質的に特定のソースデータとチャネルに対して偏りがあり、意図した意味論を理解するのが困難である。
複数のニューラルトランシーバにセマンティクスを整合させるため,スプリットラーニング(SL)と部分NN微調整技術を活用した分散学習ベースソリューションを提案する。
この方法では、層凍結(SLF)付きSLと呼ばれ、各エンコーダは不整合デコーダをダウンロードし、これらのエンコーダ-デコーダNN層の一部を局所的に微調整する。
この割合を調整することで、SLFは計算と通信コストを制御する。
シミュレーションの結果,異なるソースデータとチャネルの相違に対する意味の整合におけるslfの有効性を,分類精度,再構成誤差,回復時間の観点から確認した。 Recent studies on semantic communication commonly rely on neural network (NN) based transceivers such as deep joint source and channel coding (DeepJSCC). Unlike traditional transceivers, these neural transceivers are trainable using actual source data and channels, enabling them to extract and communicate semantics. On the flip side, each neural transceiver is inherently biased towards specific source data and channels, making different transceivers difficult to understand intended semantics, particularly upon their initial encounter. To align semantics over multiple neural transceivers, we propose a distributed learning based solution, which leverages split learning (SL) and partial NN fine-tuning techniques. In this method, referred to as SL with layer freezing (SLF), each encoder downloads a misaligned decoder, and locally fine-tunes a fraction of these encoder-decoder NN layers. By adjusting this fraction, SLF controls computing and communication costs. Simulation results confirm the effectiveness of SLF in aligning semantics under different source data and channel dissimilarities, in terms of classification accuracy, reconstruction errors, and recovery time for comprehending intended semantics from misalignment. | 翻訳日:2023-10-17 20:44:20 公開日:2023-10-13 |
# レーダーによる最大垂直速度の機械学習推定 Machine Learning Estimation of Maximum Vertical Velocity from Radar ( http://arxiv.org/abs/2310.09392v1 ) ライセンス: Link先を確認 | Randy J. Chase, Amy McGovern, Cameron Homeyer, Peter Marinescu, Corey Potvin | (参考訳) 深刻な気象災害の発生源であるにもかかわらず、上昇気流(すなわち上昇気流)の速流の定量化は、運用予測には利用できないままである。
衛星画像からトップエリアをオーバーシューティングするようなアップドラフトプロキシは、深刻な気象災害に関係しているが、ストームアップドラフト全体の限られた部分にのみ関係している。
本研究では,3次元格子型レーダ反射率のみから,機械学習モデル,すなわちU-Netsが最大垂直速度とそのアレー範囲を巧みに取得できるかどうかを検討する。
機械学習モデルは、national severe storm laboratoryのconvection allown on forecast system (wofs) からシミュレートされたレーダー反射率と垂直速度を用いて訓練される。
Sinh-arcsinh-normal (SHASH) 分布を用いたパラメトリック回帰手法は、最大垂直速度の決定論的および確率論的予測を可能にする。
ハイパーパラメータ探索後の最良のモデルでは、WoFSデータからなる独立テストセット上で50%以下のルート平均二乗誤差、0.65以上の決定係数、および0.45以上の結合(IoU)が与えられた。
wofs解析以外にも,実レーダデータとそれに対応するスーパーセル内の垂直速度のデュアルドップラー解析を用いてケーススタディを行った。
U-Netは、デュアルドップラーのアップドラフト速度を50%過小評価している。
一方、5mと10ms-1のアップドラフトコアの面積は0.25のIoUである。
上記の統計は例外ではないが、機械学習モデルは、嵐の深刻なポテンシャルを評価するのに役立つ最大垂直速度に関連する3dレーダーデータの迅速な蒸留を可能にする。 Despite being the source region of severe weather hazards, the quantification of the fast current of upward moving air (i.e., updraft) remains unavailable for operational forecasting. Updraft proxies, like overshooting top area from satellite images, have been linked to severe weather hazards but only relate to a limited portion of the total storm updraft. This study investigates if a machine learning model, namely U-Nets, can skillfully retrieve maximum vertical velocity and its areal extent from 3-dimensional (3D) gridded radar reflectivity alone. The machine learning model is trained using simulated radar reflectivity and vertical velocity from the National Severe Storm Laboratory's convection permitting Warn on Forecast System (WoFS). A parametric regression technique using the Sinh-arcsinh-normal (SHASH) distribution is adapted to run with UNets, allowing for both deterministic and probabilistic predictions of maximum vertical velocity. The best models after hyperparameter search provided less than 50% root mean squared error, a coefficient of determination greater than 0.65 and an intersection over union (IoU) of more than 0.45 on the independent test set composed of WoFS data. Beyond the WoFS analysis, a case study was conducted using real radar data and corresponding dual-Doppler analyses of vertical velocity within a supercell. The U-Net consistently underestimates the dual-Doppler updraft speed estimates by 50%. Meanwhile, the area of the 5 and 10 m s-1 updraft cores show an IoU of 0.25. While the above statistics are not exceptional, the machine learning model enables quick distillation of 3D radar data that is related to the maximum vertical velocity which could be useful in assessing a storm's severe potential. | 翻訳日:2023-10-17 20:43:56 公開日:2023-10-13 |
# 量子コンピューティング:原理と応用 Quantum computing: principles and applications ( http://arxiv.org/abs/2310.09386v1 ) ライセンス: Link先を確認 | Guanru Feng, Dawei Lu, Jun Li, Tao Xin, Bei Zeng | (参考訳) 人々は今、量子コンピューティング革命を目撃しています。
キュービット数、コヒーレンス時間、ゲートフィディティ数の増加が起きている。
量子誤差補正の時代は到来していないが、量子コンピューティングの研究と開発は、理論と実験の両方において量子技術における洞察とブレークスルーに影響を与えている。
本稿では,量子コンピューティングの基本原理と,量子コンピュータの多層アーキテクチャを紹介する。
量子コンピューティングを実装するためのさまざまな実験プラットフォームがある。
本稿では、成熟した実験プラットフォームである核磁気共鳴(NMR)プラットフォームに基づいて、量子コンピューティングを実験的に実装するための基本的なステップと、共通の課題と技術を紹介する。 People are witnessing quantum computing revolutions nowadays. Progress in the number of qubits, coherence times and gate fidelities are happening. Although quantum error correction era has not arrived, the research and development of quantum computing have inspired insights and breakthroughs in quantum technologies, both in theories and in experiments. In this review, we introduce the basic principles of quantum computing and the multilayer architecture for a quantum computer. There are different experimental platforms for implementing quantum computing. In this review, based on a mature experimental platform, the Nuclear Magnetic Resonance (NMR) platform, we introduce the basic steps to experimentally implement quantum computing, as well as common challenges and techniques. | 翻訳日:2023-10-17 20:43:28 公開日:2023-10-13 |
# デザイン生成のためのニューラル生成モデルへのシンボリック推論の統合 Integrating Symbolic Reasoning into Neural Generative Models for Design Generation ( http://arxiv.org/abs/2310.09383v1 ) ライセンス: Link先を確認 | Maxwell Joseph Jacobson, Yexiang Xue | (参考訳) 優れた設計は明示的なユーザニーズを満たし、美学、有用性、利便性のための暗黙のルールを尊重しなければならない。
ニューラルネットワークが駆動する現在の自動設計ツールは魅力的なデザインを生み出すが、ユーザ仕様や実用要件を満たすことはできない。
制約プログラミングのようなシンボリック推論ツールは、画像中の低レベルの視覚情報を知覚したり、美学のような微妙な側面を捉えたりできない。
デザイン生成のための空間共振統合発電機(SPRing)を提案する。
springはディープジェネレーティブネットワーク内に、ニューラルネットワークとシンボリックな統合空間推論モジュールを埋め込んでいる。
空間推論モジュールは、リカレントニューラルネットワークによって予測され、シンボリック制約満足度によってフィルタリングされるバウンディングボックスの形式で生成されたオブジェクトの位置を決定する。
シンボリック推論をニューラルジェネレーションに組み込むことで、SPRINGの出力がユーザ要求を満たすことが保証される。
さらに、SPRINGは解釈可能性を提供し、ユーザーはバウンディングボックスを通じて生成プロセスを視覚化し、診断することができる。
SPRINGは、ゼロショット制約転送の習熟性のおかげで、トレーニング中に遭遇しない新しいユーザ仕様の管理にも適しています。
定量的評価と人間による研究により、SPRingはベースライン生成モデルより優れ、高い設計品質とより良いユーザ仕様を提供する。 Design generation requires tight integration of neural and symbolic reasoning, as good design must meet explicit user needs and honor implicit rules for aesthetics, utility, and convenience. Current automated design tools driven by neural networks produce appealing designs, but cannot satisfy user specifications and utility requirements. Symbolic reasoning tools, such as constraint programming, cannot perceive low-level visual information in images or capture subtle aspects such as aesthetics. We introduce the Spatial Reasoning Integrated Generator (SPRING) for design generation. SPRING embeds a neural and symbolic integrated spatial reasoning module inside the deep generative network. The spatial reasoning module decides the locations of objects to be generated in the form of bounding boxes, which are predicted by a recurrent neural network and filtered by symbolic constraint satisfaction. Embedding symbolic reasoning into neural generation guarantees that the output of SPRING satisfies user requirements. Furthermore, SPRING offers interpretability, allowing users to visualize and diagnose the generation process through the bounding boxes. SPRING is also adept at managing novel user specifications not encountered during its training, thanks to its proficiency in zero-shot constraint transfer. Quantitative evaluations and a human study reveal that SPRING outperforms baseline generative models, excelling in delivering high design quality and better meeting user specifications. | 翻訳日:2023-10-17 20:43:16 公開日:2023-10-13 |
# LL-VQ-VAE: 効率的な表現のための学習可能な格子ベクトル量子化 LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations ( http://arxiv.org/abs/2310.09382v1 ) ライセンス: Link先を確認 | Ahmed Khalil, Robert Piechocki, Raul Santos-Rodriguez | (参考訳) 本稿では,学習可能な格子ベクトル量子化を導入し,離散表現の学習の有効性を示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
学習可能な格子は、すべての離散埋め込みに対して構造を課し、コードブックの崩壊に対する抑止力として働き、高いコードブック利用につながる。
vq-vaeと比較して,同一のトレーニング条件下での再構成誤差が低く,かつ一定数のパラメータ(埋め込み次元$d$ と同等)を持つ場合,非常にスケーラブルなアプローチとなる。
FFHQ-1024データセットでこれらの結果を実証し、FashionMNISTとCeleb-Aを含む。 In this paper we introduce learnable lattice vector quantization and demonstrate its effectiveness for learning discrete representations. Our method, termed LL-VQ-VAE, replaces the vector quantization layer in VQ-VAE with lattice-based discretization. The learnable lattice imposes a structure over all discrete embeddings, acting as a deterrent against codebook collapse, leading to high codebook utilization. Compared to VQ-VAE, our method obtains lower reconstruction errors under the same training conditions, trains in a fraction of the time, and with a constant number of parameters (equal to the embedding dimension $D$), making it a very scalable approach. We demonstrate these results on the FFHQ-1024 dataset and include FashionMNIST and Celeb-A. | 翻訳日:2023-10-17 20:42:54 公開日:2023-10-13 |
# 成人データセットにおける機械学習バイアスの同定と検証 Identifying and examining machine learning biases on Adult dataset ( http://arxiv.org/abs/2310.09373v1 ) ライセンス: Link先を確認 | Sahil Girhepuje | (参考訳) 本研究は,アンサンブル学習による機械学習モデルバイアスの低減に寄与する。
我々の厳密な方法論は、様々なカテゴリー変数にまたがる偏見を包括的に評価し、最終的に顕著な男女属性偏見を明らかにする。
実証的な証拠は、性別に基づく賃金の差がかなり大きいことを示している: 男性向けの賃金は、当初902.91ドルと予測され、性別属性が女性に交互に変わると、わずかに774.31ドルに減少する。
特に、kullback-leibler divergenceスコアは、主に木に基づくモデルにおいて、0.13を超える性バイアスを示している。
アンサンブル学習は公平さと透明性の探求を解明する。
興味深いことに, 重ねられたモデルが個々のモデルと整合し, モデルバイアスの弾力性が確認された。
本研究は,データ駆動型社会における倫理的考察と,不公平性と傾向を特徴とするハイブリッドモデルの実現を提唱する。 This research delves into the reduction of machine learning model bias through Ensemble Learning. Our rigorous methodology comprehensively assesses bias across various categorical variables, ultimately revealing a pronounced gender attribute bias. The empirical evidence unveils a substantial gender-based wage prediction disparity: wages predicted for males, initially at \$902.91, significantly decrease to \$774.31 when the gender attribute is alternated to females. Notably, Kullback-Leibler divergence scores point to gender bias, with values exceeding 0.13, predominantly within tree-based models. Employing Ensemble Learning elucidates the quest for fairness and transparency. Intriguingly, our findings reveal that the stacked model aligns with individual models, confirming the resilience of model bias. This study underscores ethical considerations and advocates the implementation of hybrid models for a data-driven society marked by impartiality and inclusivity. | 翻訳日:2023-10-17 20:42:42 公開日:2023-10-13 |
# フェデレーション設定における準最適微分プライベートクライアントの選択 Near-optimal Differentially Private Client Selection in Federated Settings ( http://arxiv.org/abs/2310.09370v1 ) ライセンス: Link先を確認 | Syed Eqbal Alam, Dhirendra Shukla, and Shrisha Rao | (参考訳) フェデレーション設定におけるクライアント選択のための反復微分プライベートアルゴリズムを開発した。
我々は、クライアントがタスクを完了させるために中央サーバと協調するフェデレートネットワークを考えるが、クライアントは、ローカルな計算と確率的意図に基づいて、タイムステップで参加するかどうかを決定する。
このアルゴリズムはクライアントからクライアントへの情報交換を必要としない。
開発したアルゴリズムは、特定の差分プライバシー保証を伴う長期的な平均的参加よりも、クライアントにほぼ最適値を提供する。
最後に,本アルゴリズムの有効性を確認するために実験結果を示す。 We develop an iterative differentially private algorithm for client selection in federated settings. We consider a federated network wherein clients coordinate with a central server to complete a task; however, the clients decide whether to participate or not at a time step based on their preferences -- local computation and probabilistic intent. The algorithm does not require client-to-client information exchange. The developed algorithm provides near-optimal values to the clients over long-term average participation with a certain differential privacy guarantee. Finally, we present the experimental results to check the algorithm's efficacy. | 翻訳日:2023-10-17 20:42:27 公開日:2023-10-13 |
# 行列サンプリングを用いた信号再構成 Signal reconstruction using determinantal sampling ( http://arxiv.org/abs/2310.09437v1 ) ライセンス: Link先を確認 | Ayoub Belhadji, R\'emi Bardenet, Pierre Chainais | (参考訳) ランダムなノードの集合上での有限個の評価から正方積分関数の近似をウェル・チョーゼン分布に従って検討する。
これは、函数が再生核ヒルベルト空間(RKHS)に属すると仮定されるときに特に関係がある。
本研究は、ノードの2つの可能な確率分布に基づいて、いくつかの自然有限次元近似を組み合わせることを提案する。
これらの分布は決定点過程と関連しており、ランダム設計においてRKHS適応正規性を支持するためにRKHSのカーネルを使用する。
従来はRKHS法則に依拠していたが, 平均二乗保証は$L^2$法則で証明した。
決定点過程とその混合物は, 高速収束速度が得られることを示す。
また,超コンバージェンス現象として,より滑らかさが想定された場合の速度変化についても考察した。
さらに、決定的サンプリングは、文献の標準であるChristoffel関数からのサンプリングを一般化する。
さらに重要なことに、決定論的サンプリングは、i.i.d.サンプリングよりも少ない数の関数評価において、いわゆるインスタンス最適性を保証する。 We study the approximation of a square-integrable function from a finite number of evaluations on a random set of nodes according to a well-chosen distribution. This is particularly relevant when the function is assumed to belong to a reproducing kernel Hilbert space (RKHS). This work proposes to combine several natural finite-dimensional approximations based two possible probability distributions of nodes. These distributions are related to determinantal point processes, and use the kernel of the RKHS to favor RKHS-adapted regularity in the random design. While previous work on determinantal sampling relied on the RKHS norm, we prove mean-square guarantees in $L^2$ norm. We show that determinantal point processes and mixtures thereof can yield fast convergence rates. Our results also shed light on how the rate changes as more smoothness is assumed, a phenomenon known as superconvergence. Besides, determinantal sampling generalizes i.i.d. sampling from the Christoffel function which is standard in the literature. More importantly, determinantal sampling guarantees the so-called instance optimality property for a smaller number of function evaluations than i.i.d. sampling. | 翻訳日:2023-10-17 20:34:03 公開日:2023-10-13 |
# 混合タスクの連続学習のためのサブネットワーク探索とソフトマスキング Sub-network Discovery and Soft-masking for Continual Learning of Mixed Tasks ( http://arxiv.org/abs/2310.09436v1 ) ライセンス: Link先を確認 | Zixuan Ke, Bing Liu, Wenhan Xiong, Asli Celikyilmaz, Haoran Li | (参考訳) 連続学習(CL)には、破滅的忘れ(CF)の予防と知識伝達(KT)の促進という2つの目的がある。
既存の文献は主にcfを克服することに焦点を当てている。
タスクが似ている場合、KT上でもいくつかの作業が行われている。
我々の知る限り、混合タスクのシーケンスを学習する手法は1つしか提案されていない。
しかし、これらの技術は依然としてcfおよび/または制限ktに苦しむ。
本稿では,両立のための新しいcl法を提案する。
サブネットワークを発見して各タスクの知識を分離することでCFを克服する。
以前の知識を保存し、新しいタスクが過去の知識を活用してktを達成するためのソフトマスキング機構も提案されている。
分類,生成,情報抽出,およびそれらの混合(異種タスク)を用いた実験は,提案手法が強いベースラインを一貫して上回ることを示す。 Continual learning (CL) has two main objectives: preventing catastrophic forgetting (CF) and encouraging knowledge transfer (KT). The existing literature mainly focused on overcoming CF. Some work has also been done on KT when the tasks are similar. To our knowledge, only one method has been proposed to learn a sequence of mixed tasks. However, these techniques still suffer from CF and/or limited KT. This paper proposes a new CL method to achieve both. It overcomes CF by isolating the knowledge of each task via discovering a subnetwork for it. A soft-masking mechanism is also proposed to preserve the previous knowledge and to enable the new task to leverage the past knowledge to achieve KT. Experiments using classification, generation, information extraction, and their mixture (i.e., heterogeneous tasks) show that the proposed method consistently outperforms strong baselines. | 翻訳日:2023-10-17 20:33:48 公開日:2023-10-13 |
# シリコンマイクロリング型貯水池計算における空洞非線形性と線形損失の影響 Effects of cavity nonlinearities and linear losses on silicon microring-based reservoir computing ( http://arxiv.org/abs/2310.09433v1 ) ライセンス: Link先を確認 | Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar, Francesco Da Ros | (参考訳) マイクロリング共振器(MRR)は、時間遅延フォトニック貯水池コンピューティングに有望な装置であるが、MRRにおける異なる物理効果が貯水池演算性能に与える影響は、まだ完全には理解されていない。
時系列タスクnarma-10の予測誤差に対する線形損失と熱光学および自由キャリア効果緩和時間の影響を数値的に解析した。
入力電力と光源とマイクロリング共鳴の周波数差で定義される3つの領域の存在を実証し、線形状態から非線形状態へのキャビティ遷移を明らかにする。
これらの領域の1つは、比較的低い入力パワーとノード数の下での時系列予測において非常に低いエラーを提供する一方、他の領域は非線形性を欠いているか不安定になる。
本研究は,mrrの設計と物理特性の最適化に関する知見を提供し,時間分解型貯留層計算の予測性能を向上させる。 Microring resonators (MRRs) are promising devices for time-delay photonic reservoir computing, but the impact of the different physical effects taking place in the MRRs on the reservoir computing performance is yet to be fully understood. We numerically analyze the impact of linear losses as well as thermo-optic and free-carrier effects relaxation times on the prediction error of the time-series task NARMA-10. We demonstrate the existence of three regions, defined by the input power and the frequency detuning between the optical source and the microring resonance, that reveal the cavity transition from linear to nonlinear regimes. One of these regions offers very low error in time-series prediction under relatively low input power and number of nodes while the other regions either lack nonlinearity or become unstable. This study provides insight into the design of the MRR and the optimization of its physical properties for improving the prediction performance of time-delay reservoir computing. | 翻訳日:2023-10-17 20:33:35 公開日:2023-10-13 |
# キーワード駆動文選択によるBERTに基づく視覚質問応答の強化 Enhancing BERT-Based Visual Question Answering through Keyword-Driven Sentence Selection ( http://arxiv.org/abs/2310.09432v1 ) ライセンス: Link先を確認 | Davide Napolitano and Lorenzo Vaiani and Luca Cagliero | (参考訳) ドキュメントベースのVisual Question Answeringコンペティションは、マルチページドキュメント内の要素間の親子関係の自動検出に対処する。
目標は、自然言語でなされる特定の質問に答えるドキュメント要素を特定することです。
本稿では,この課題に対するpolitoのアプローチ,特に,アドホックサンプリング戦略を活用したテキストのみのアプローチについて述べる。
具体的には,Masked Language Modeling 手法を用いて BERT モデルを微調整し,テーブルや画像への参照などの質問に現れるセンシティブなキーワードを含む文に焦点をあてる。
このアプローチの有効性のおかげで、ベースラインよりも高いパフォーマンスを達成でき、私たちのソリューションがこのタスクに肯定的な貢献をする様子を示しています。 The Document-based Visual Question Answering competition addresses the automatic detection of parent-child relationships between elements in multi-page documents. The goal is to identify the document elements that answer a specific question posed in natural language. This paper describes the PoliTo's approach to addressing this task, in particular, our best solution explores a text-only approach, leveraging an ad hoc sampling strategy. Specifically, our approach leverages the Masked Language Modeling technique to fine-tune a BERT model, focusing on sentences containing sensitive keywords that also occur in the questions, such as references to tables or images. Thanks to the effectiveness of this approach, we are able to achieve high performance compared to baselines, demonstrating how our solution contributes positively to this task. | 翻訳日:2023-10-17 20:33:19 公開日:2023-10-13 |
# 分布外論理推論課題における大規模言語モデルの体系的評価 A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks ( http://arxiv.org/abs/2310.09430v1 ) ライセンス: Link先を確認 | Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan, Yang Chen, Michael Witbrock, Jiamou Liu | (参考訳) GPT-3.5やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける人工システムの性能を大幅に向上させた。
しかし、論理的な推論を行うための一般化と堅牢性は未評価のままである。
この能力を探索するために,まずランダムにシャッフルされた選択肢の1つ,第2の選択肢が正しい選択肢の1つに置き換わる「ReClor-plus」「LogiQA-plus」「LogiQAv2-plus」という3つの新しい論理的推論データセットと,それ以前の2つのサブセットの組み合わせを提案する。
識別と生成の両方でこれらのデータセットの実験を行い、これらの単純なトリックが言語モデルの性能を著しく損なうことを示す。
オリジナルの公開データセットでのパフォーマンスは優れていますが、私たちはすべてのモデルが新しく構築されたデータセットに答えるのに苦労しています。
本研究では,相当量のトレーニング集合を摂動させることで,論理推論タスクにおけるモデルの一般化とロバスト性が著しく向上することを示す。
さらに、微調整に論理駆動データ拡張を適用すると、プロンプトと組み合わせることで、判別型大言語モデルと生成型大言語モデルの双方の一般化性能が向上する。
これらの結果は、論理推論タスクのための大規模言語モデルの一般化と堅牢性の評価と改善に関する洞察を提供する。
ソースコードとデータは \url{https://github.com/strong-ai-lab/logical-and-abstract-reasoning} で公開しています。 Large language models (LLMs), such as GPT-3.5 and GPT-4, have greatly advanced the performance of artificial systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness to perform logical reasoning remain under-evaluated. To probe this ability, we propose three new logical reasoning datasets named "ReClor-plus", "LogiQA-plus" and "LogiQAv2-plus", each featuring three subsets: the first with randomly shuffled options, the second with the correct choices replaced by "none of the other options are correct", and a combination of the previous two subsets. We carry out experiments on these datasets with both discriminative and generative LLMs and show that these simple tricks greatly hinder the performance of the language models. Despite their superior performance on the original publicly available datasets, we find that all models struggle to answer our newly constructed datasets. We show that introducing task variations by perturbing a sizable training set can markedly improve the model's generalisation and robustness in logical reasoning tasks. Moreover, applying logic-driven data augmentation for fine-tuning, combined with prompting can enhance the generalisation performance of both discriminative large language models and generative large language models. These results offer insights into assessing and improving the generalisation and robustness of large language models for logical reasoning tasks. We make our source code and data publicly available \url{https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning}. | 翻訳日:2023-10-17 20:33:06 公開日:2023-10-13 |
# 生産入札ポリシー最適化のためのオフライン強化学習 Offline Reinforcement Learning for Optimizing Production Bidding Policies ( http://arxiv.org/abs/2310.09426v1 ) ライセンス: Link先を確認 | Dmytro Korenkevych, Frank Cheng, Artsiom Balakir, Alex Nikulkov, Lingnan Gao, Zhihao Cen, Zuobing Xu, Zheqing Zhu | (参考訳) オンライン広告市場は、1秒間に数千回のオークションが開催されているが、予算制約の下で支出を最適化したい広告主にとっては恐ろしい課題だ。
したがって、広告プラットフォームは通常、顧客に自動エージェントを提供し、顧客に代わって行動し、大規模なインプレッション機会をリアルタイムで競う。
これらのプロキシエージェントはプラットフォームによって所有されているが、運用には広告主の資金を使用するため、エージェントの信頼性と説明可能性のバランスを最適化する必要性が強い。
オフライン強化学習を用いて実データから学習することで,生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。
このアプローチは、任意の差別化可能なベースポリシー(実際、広告主が容易に理解できる原則に基づくヒューリスティックポリシー)を最適化するために使用することができ、ベースポリシー自体によって生成されたデータのみを必要とする。
任意の基本ポリシと深層ニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを用いて,最適化された基本ポリシパラメータのみを最終的にデプロイし,トレーニング後にニューラルネットワーク部分を破棄する。
このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
我々のアプローチは、既存のプロダクションルーチンのパラメータを直接ニューラルネットワークのようなブラックボックススタイルのモデルに置き換えることなく最適化するため、追加のインフラストラクチャ、安全性、説明可能性コストを発生しません。 The online advertising market, with its thousands of auctions run per second, presents a daunting challenge for advertisers who wish to optimize their spend under a budget constraint. Thus, advertising platforms typically provide automated agents to their customers, which act on their behalf to bid for impression opportunities in real time at scale. Because these proxy agents are owned by the platform but use advertiser funds to operate, there is a strong practical need to balance reliability and explainability of the agent with optimizing power. We propose a generalizable approach to optimizing bidding policies in production environments by learning from real data using offline reinforcement learning. This approach can be used to optimize any differentiable base policy (practically, a heuristic policy based on principles which the advertiser can easily understand), and only requires data generated by the base policy itself. We use a hybrid agent architecture that combines arbitrary base policies with deep neural networks, where only the optimized base policy parameters are eventually deployed, and the neural network part is discarded after training. We demonstrate that such an architecture achieves statistically significant performance gains in both simulated and at-scale production bidding environments. Our approach does not incur additional infrastructure, safety, or explainability costs, as it directly optimizes parameters of existing production routines without replacing them with black box-style models like neural networks. | 翻訳日:2023-10-17 20:32:39 公開日:2023-10-13 |
# 対称欠陥によるuv/ir混合の顕現:位相的絡み合いエントロピーから Unveiling UV/IR Mixing via Symmetry Defects: A View from Topological Entanglement Entropy ( http://arxiv.org/abs/2310.09425v1 ) ライセンス: Link先を確認 | Jintae Kim, Yun-Tak Oh, Daniel Bulmash, Jung Hoon Han | (参考訳) 2つの空間次元のトポロジカル格子モデルは、基底状態縮退(GSD)において複雑なシステムサイズ依存を示すことが発見されている。
モデルシステムのトポロジ的絡み合いエントロピー(TEE)を2つのシリンダーに分割するためのランク2トーリック符号を明示的に算出することにより,この現象の2つの説明を区別する。
rank-2 toric符号が翻訳対称性エンリッチな位相位相相であるという事実に着目して,異なる変換対称性欠陥として異なるシステムサイズを見ることで,tee結果とrank-2 toric符号のgsdの両方を説明できることを示す。
我々の研究は、このシステムサイズ依存性の最も完全な記述として対称性欠陥フレームワークを確立している。 Some topological lattice models in two spatial dimensions have been found to exhibit intricate system size dependence in their ground state degeneracy (GSD), often known as UV/IR mixing. We distinguish between two explanations for this phenomenon by explicitly calculating the topological entanglement entropy (TEE) of a model system, the rank-2 toric code, for a bi-partition of the torus into two cylinders. Focusing on the fact that the rank-2 toric code is a translation symmetry-enriched topological phase, we show that viewing distinct system sizes as different translation symmetry defects can explain both our TEE results and the GSD of the rank-2 toric code. Our work establishes the symmetry defect framework as the most complete description of this system size dependence. | 翻訳日:2023-10-17 20:32:18 公開日:2023-10-13 |
# SALM:音声認識と翻訳のための文脈内学習を用いた言語モデル SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation ( http://arxiv.org/abs/2310.09424v1 ) ライセンス: Link先を確認 | Zhehuai Chen, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, Boris Ginsburg | (参考訳) 本稿では, 音声強調言語モデル (SALM) について, {\em multitask} と {\em in-context} の学習機能について述べる。
SALMは、音声入力および関連するタスク命令に対応するための凍結テキストLLM、オーディオエンコーダ、モダリティアダプタモジュール、およびLoRA層からなる。
統合されたSALMは、タスク固有の音声認識(ASR)と音声翻訳(AST)のコンフォーマーベースラインと同等のパフォーマンスを達成するだけでなく、ASRとASTのキーワードブーストタスクを通じて、ゼロショットのインコンテクスト学習能力を示す。
さらに, llm学習と下流音声課題のギャップを埋めるために, 「em speech supervised in-context training」 が提案されている。
提案モデルはnemo toolkit経由でオープンソースとして公開されている。 We present a novel Speech Augmented Language Model (SALM) with {\em multitask} and {\em in-context} learning capabilities. SALM comprises a frozen text LLM, a audio encoder, a modality adapter module, and LoRA layers to accommodate speech input and associated task instructions. The unified SALM not only achieves performance on par with task-specific Conformer baselines for Automatic Speech Recognition (ASR) and Speech Translation (AST), but also exhibits zero-shot in-context learning capabilities, demonstrated through keyword-boosting task for ASR and AST. Moreover, {\em speech supervised in-context training} is proposed to bridge the gap between LLM training and downstream speech tasks, which further boosts the in-context learning ability of speech-to-text models. Proposed model is open-sourced via NeMo toolkit. | 翻訳日:2023-10-17 20:32:02 公開日:2023-10-13 |
# 実世界の配水ネットワークにおけるポンプ持続性最適化のためのハイブリッド強化学習 Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks ( http://arxiv.org/abs/2310.09412v1 ) ライセンス: Link先を確認 | Harsh Patel, Yuan Zhou, Alexander P Lamb, Shu Wang, Jieliang Luo | (参考訳) 本稿では,実世界の配水ネットワーク(wdns)のリアルタイム制御を強化するため,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
逆に、強化学習(RL)は不確実性への適応性と推論時間を短縮し、リアルタイムの応答性を実現している。
しかし、WDNの正確なシミュレーションモデルの構築にはRLの効果的な実装が重要であり、事前の応用はシミュレーショントレーニングデータの誤りによって制限されている。
これらのエラーは、RLエージェントが誤解を招くパターンやアクションを学習し、最適でない運用戦略を推奨する可能性がある。
これらの課題を克服するために、改良された「ハイブリッドRL」手法を提案する。
この方法は、rlの利点を歴史的データに固定しながら統合し、最適な制御勧告を漸進的に導入するためのベースラインとなる。
エージェントのアクションの基盤として運用データを活用することで、エージェントのアクションの説明可能性を高め、より堅牢な推奨を促進し、エラーを最小限に抑える。
以上の結果から, ハイブリッドRLエージェントは, 持続可能性, 運用効率を著しく向上し, 現実のWDNにおいて出現するシナリオに動的に適応できることが示唆された。 This article addresses the pump-scheduling optimization problem to enhance real-time control of real-world water distribution networks (WDNs). Our primary objectives are to adhere to physical operational constraints while reducing energy consumption and operational costs. Traditional optimization techniques, such as evolution-based and genetic algorithms, often fall short due to their lack of convergence guarantees. Conversely, reinforcement learning (RL) stands out for its adaptability to uncertainties and reduced inference time, enabling real-time responsiveness. However, the effective implementation of RL is contingent on building accurate simulation models for WDNs, and prior applications have been limited by errors in simulation training data. These errors can potentially cause the RL agent to learn misleading patterns and actions and recommend suboptimal operational strategies. To overcome these challenges, we present an improved "hybrid RL" methodology. This method integrates the benefits of RL while anchoring it in historical data, which serves as a baseline to incrementally introduce optimal control recommendations. By leveraging operational data as a foundation for the agent's actions, we enhance the explainability of the agent's actions, foster more robust recommendations, and minimize error. Our findings demonstrate that the hybrid RL agent can significantly improve sustainability, operational efficiency, and dynamically adapt to emerging scenarios in real-world WDNs. | 翻訳日:2023-10-17 20:31:43 公開日:2023-10-13 |
# 深層学習によるテキスト要約の景観調査 : 総合的考察 Surveying the Landscape of Text Summarization with Deep Learning: A Comprehensive Review ( http://arxiv.org/abs/2310.09411v1 ) ライセンス: Link先を確認 | Guanghua Wang, Weili Wu | (参考訳) 近年、ディープラーニングは自然言語処理(NLP)に革命をもたらし、言語データの複雑な表現を学習できるモデルの開発を可能にした。
NLPのディープラーニングモデルは通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
これは、手動でNLPタスクを実行するための機能やルールに依存する従来のNLPアプローチとは対照的である。
ディープニューラルネットワークが言語データの階層的表現を学習し、可変長の入力シーケンスを処理し、大きなデータセットでうまく機能する能力は、nlpアプリケーションに適している。
テキストデータの指数的増加と、凝縮、コヒーレント、情報的要約の需要の増加により、テキスト要約はNLP分野において重要な研究領域となっている。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
本調査では,近年,抽出,抽象,多文書化など,ファッショナブルなテキスト要約タスクのレビューから始める。
次に、最も深層学習に基づくモデルとその課題に関する実験結果について論じる。
要約タスクのデータセットとデータ表現についても取り上げる。
最後に,要約タスクとそれに対応する方法論にかかわる機会と課題を掘り下げ,今後の研究課題のさらなる発展をめざす。
本調査の目的は,特定の条件に適合する手法を選択する上で,これらの手法が要求とどのように異なるかを説明することである。 In recent years, deep learning has revolutionized natural language processing (NLP) by enabling the development of models that can learn complex representations of language data, leading to significant improvements in performance across a wide range of NLP tasks. Deep learning models for NLP typically use large amounts of data to train deep neural networks, allowing them to learn the patterns and relationships in language data. This is in contrast to traditional NLP approaches, which rely on hand-engineered features and rules to perform NLP tasks. The ability of deep neural networks to learn hierarchical representations of language data, handle variable-length input sequences, and perform well on large datasets makes them well-suited for NLP applications. Driven by the exponential growth of textual data and the increasing demand for condensed, coherent, and informative summaries, text summarization has been a critical research area in the field of NLP. Applying deep learning to text summarization refers to the use of deep neural networks to perform text summarization tasks. In this survey, we begin with a review of fashionable text summarization tasks in recent years, including extractive, abstractive, multi-document, and so on. Next, we discuss most deep learning-based models and their experimental results on these tasks. The paper also covers datasets and data representation for summarization tasks. Finally, we delve into the opportunities and challenges associated with summarization tasks and their corresponding methodologies, aiming to inspire future research efforts to advance the field further. A goal of our survey is to explain how these methods differ in their requirements as understanding them is essential for choosing a technique suited for a specific setting. | 翻訳日:2023-10-17 20:31:17 公開日:2023-10-13 |
# ペアワイズ類似性学習は単純である Pairwise Similarity Learning is SimPLE ( http://arxiv.org/abs/2310.09449v1 ) ライセンス: Link先を確認 | Yandong Wen, Weiyang Liu, Yao Feng, Bhiksha Raj, Rita Singh, Adrian Weller, Michael J. Black, Bernhard Sch\"olkopf | (参考訳) 本稿では,汎用的ながら重要な学習問題であるペアワイド類似性学習(PSL)に焦点を当てる。
PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。
PSLの目標は、正のペア(つまり同じラベルを持つサンプルのペア)に対して、負のペア(すなわち異なるラベルを持つサンプルのペア)よりも高い類似度スコアを割り当てるペアワイズ類似度関数を学習することである。
まず,psl の重要なデシデラタムを特定し,そのデシデラタムを既存手法で実現する方法について論じる。
次に,機能/プロキシの正規化や角マージンを必要とせず,オープンセット認識をうまく一般化できる,驚くほどシンプルなプロキシフリー手法であるsimpleを提案する。
提案手法は,オープンセット顔認識,画像検索,話者照合という3つの課題に応用する。
大規模ベンチマークにおける包括的実験結果から,本手法は現状の手法よりもはるかに優れた性能を示す。 In this paper, we focus on a general yet important learning problem, pairwise similarity learning (PSL). PSL subsumes a wide range of important applications, such as open-set face recognition, speaker verification, image retrieval and person re-identification. The goal of PSL is to learn a pairwise similarity function assigning a higher similarity score to positive pairs (i.e., a pair of samples with the same label) than to negative pairs (i.e., a pair of samples with different label). We start by identifying a key desideratum for PSL, and then discuss how existing methods can achieve this desideratum. We then propose a surprisingly simple proxy-free method, called SimPLE, which requires neither feature/proxy normalization nor angular margin and yet is able to generalize well in open-set recognition. We apply the proposed method to three challenging PSL tasks: open-set face recognition, image retrieval and speaker verification. Comprehensive experimental results on large-scale benchmarks show that our method performs significantly better than current state-of-the-art methods. | 翻訳日:2023-10-17 20:23:00 公開日:2023-10-13 |
# CTにおける肺所見の自動分離とLong COVID-19への応用 Automatic segmentation of lung findings in CT and application to Long COVID ( http://arxiv.org/abs/2310.09446v1 ) ライセンス: Link先を確認 | Diedre S. Carmo, Rosarie A. Tudas, Alejandro P. Comellas, Leticia Rittner, Roberto A. Lotufo, Joseph M. Reinhardt, Sarah E. Gerard | (参考訳) 肺疾患の診断・特徴化において,CTにおける肺病変の自動分節化は重要なステップである。
本研究では,胸部CT画像における肺病変の正確な分画のための深層学習に基づくアプローチであるS-MEDSegを提案する。
S-MEDSegは、トレーニング済みのEfficientNetバックボーン、双方向特徴ピラミッドネットワーク、そして最新のネットワークの進歩を組み合わせて、セグメンテーション性能の向上を実現している。
提案するネットワーク修正の寄与度を評価するため,包括的アブレーション研究を行った。
その結果、S-MEDSegで導入された修正は、ベースラインアプローチと比較してセグメンテーション性能を著しく改善することを示した。
提案手法は, 急性期感染ワクチン接種が肺病変の程度に及ぼす影響を検討するために, 長期入院患者の個別データセットに適用した。
オープンソースコード、グラフィカルユーザインタフェース、およびpipパッケージはhttps://github.com/MICLab-Unicamp/medsegで入手できる。 Automated segmentation of lung abnormalities in computed tomography is an important step for diagnosing and characterizing lung disease. In this work, we improve upon a previous method and propose S-MEDSeg, a deep learning based approach for accurate segmentation of lung lesions in chest CT images. S-MEDSeg combines a pre-trained EfficientNet backbone, bidirectional feature pyramid network, and modern network advancements to achieve improved segmentation performance. A comprehensive ablation study was performed to evaluate the contribution of the proposed network modifications. The results demonstrate modifications introduced in S-MEDSeg significantly improves segmentation performance compared to the baseline approach. The proposed method is applied to an independent dataset of long COVID inpatients to study the effect of post-acute infection vaccination on extent of lung findings. Open-source code, graphical user interface and pip package are available at https://github.com/MICLab-Unicamp/medseg. | 翻訳日:2023-10-17 20:22:42 公開日:2023-10-13 |
# 視覚トランスフォーマーによる医学連関学習における不均一性への取り組み Tackling Heterogeneity in Medical Federated learning via Vision Transformers ( http://arxiv.org/abs/2310.09444v1 ) ライセンス: Link先を確認 | Erfan Darzi, Yiqing Shen, Nanna M. Sijtsema, P.M.A van Ooijen | (参考訳) 最適化に基づく正規化手法は,医学フェデレーション学習におけるデータ不均一性による課題,特に未表現クライアントの性能向上に有効である。
しかし、これらの手法はモデル全体の精度を低下させ、収束速度を遅くする。
本稿では,視覚トランスフォーマを使用して,全体的な精度のトレードオフを伴わずに,低表示クライアントの性能を大幅に向上できることを実証する。
この改善は、vision transformerが入力データ内の長距離依存性をキャプチャする能力に起因する。 Optimization-based regularization methods have been effective in addressing the challenges posed by data heterogeneity in medical federated learning, particularly in improving the performance of underrepresented clients. However, these methods often lead to lower overall model accuracy and slower convergence rates. In this paper, we demonstrate that using Vision Transformers can substantially improve the performance of underrepresented clients without a significant trade-off in overall accuracy. This improvement is attributed to the Vision transformer's ability to capture long-range dependencies within the input data. | 翻訳日:2023-10-17 20:22:26 公開日:2023-10-13 |
# ターゲット変数エンジニアリング Target Variable Engineering ( http://arxiv.org/abs/2310.09440v1 ) ライセンス: Link先を確認 | Jessica Clark | (参考訳) ターゲット変数の定式化はmlパイプラインのパフォーマンスにどのように影響するのか?
本研究では,しきい値との比較により二元化された数値的対象について検討した。
数値的目標を予測するために訓練された回帰モデルの予測性能と、二元化対象を予測するために訓練された分類器を比較した。
具体的には、ランダム化ハイパーパラメータ最適化探索の全ての点でこの比較を行い、計算資源予算が両者のトレードオフに与える影響を理解する。
回帰は最適性能に収束するためにははるかに多くの計算作業を必要としており、トレーニングプロセスにおけるランダムさとヒューリスティックな選択に敏感である。
分類は、体系的なハイパーパラメータチューニングとモデル選択の恩恵を受けることができるが、改善は回帰よりもはるかに少ない。
本研究は,計算資源要求の枠組みにおける回帰と分類の体系的比較である。
本研究は、より持続可能で堅牢なaiシステムを構築するため、mlパイプラインの再現性と効率性の向上に寄与する。 How does the formulation of a target variable affect performance within the ML pipeline? The experiments in this study examine numeric targets that have been binarized by comparing against a threshold. We compare the predictive performance of regression models trained to predict the numeric targets vs. classifiers trained to predict their binarized counterparts. Specifically, we make this comparison at every point of a randomized hyperparameter optimization search to understand the effect of computational resource budget on the tradeoff between the two. We find that regression requires significantly more computational effort to converge upon the optimal performance, and is more sensitive to both randomness and heuristic choices in the training process. Although classification can and does benefit from systematic hyperparameter tuning and model selection, the improvements are much less than for regression. This work comprises the first systematic comparison of regression and classification within the framework of computational resource requirements. Our findings contribute to calls for greater replicability and efficiency within the ML pipeline for the sake of building more sustainable and robust AI systems. | 翻訳日:2023-10-17 20:22:17 公開日:2023-10-13 |
# より良いコードコメント分類のためのML-LLMペアリング A ML-LLM pairing for better code comment classification ( http://arxiv.org/abs/2310.10275v1 ) ライセンス: Link先を確認 | Hanna Abi Akl | (参考訳) FIRE 2023の共有タスクである"Information Retrieval in Software Engineering (IRSE)"では、コードコメントの分類を導入している。
アルゴリズムの観点から、従来の機械学習システムの性能を比較し、データ駆動の観点から評価を補完し、大きな言語モデル(LLM)の助けを借りてデータを生成する。
我々の最良のモデルは、共有タスクで2位となり、提供されたシードデータに対してマクロF1スコアが88.401%、LLMが生成したデータに対する全体的なパフォーマンスが1.5%向上したニューラルネットワークです。 The "Information Retrieval in Software Engineering (IRSE)" at FIRE 2023 shared task introduces code comment classification, a challenging task that pairs a code snippet with a comment that should be evaluated as either useful or not useful to the understanding of the relevant code. We answer the code comment classification shared task challenge by providing a two-fold evaluation: from an algorithmic perspective, we compare the performance of classical machine learning systems and complement our evaluations from a data-driven perspective by generating additional data with the help of large language model (LLM) prompting to measure the potential increase in performance. Our best model, which took second place in the shared task, is a Neural Network with a Macro-F1 score of 88.401% on the provided seed data and a 1.5% overall increase in performance on the data generated by the LLM. | 翻訳日:2023-10-17 15:08:29 公開日:2023-10-13 |
# 20のクエリにおけるブラックボックス大言語モデルの脱獄 Jailbreaking Black Box Large Language Models in Twenty Queries ( http://arxiv.org/abs/2310.08419v2 ) ライセンス: Link先を確認 | Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong | (参考訳) 大規模言語モデル(llm)が人間の価値観に合致することに対する関心が高まっている。
しかし、これらのモデルのアライメントは、llmを安全ガードレールをオーバーライドさせる敵のジェイルブレイクに対して脆弱である。
これらの脆弱性の特定は、固有の弱点を理解し、将来の誤用を防ぐのに役立つ。
そこで本研究では,LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムであるPrompt Automatic Iterative Refinement (PAIR)を提案する。
PAIRは、社会工学的な攻撃にインスパイアされたもので、人間の介入なしに個別のLLMに対して自動でジェイルブレイクを生成する。
このようにして、攻撃者 LLM は、ターゲットの LLM を反復的にクエリして、候補のjailbreak を更新および精査する。
経験的に、PAIRは、既存のアルゴリズムよりも桁違いに効率的なジェイルブレイクを生成するために、20未満のクエリを必要とすることが多い。
PAIRは、GPT-3.5/4、Vicuna、PaLM-2など、オープンでクローズドなLLM上で、競合するジェイルブレイクの成功率と転送性も達成している。 There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR -- which is inspired by social engineering attacks -- uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and PaLM-2. | 翻訳日:2023-10-17 10:17:18 公開日:2023-10-13 |
# 量子分割関数を低温で近似する効率的なアルゴリズム Efficient Algorithms for Approximating Quantum Partition Functions at Low Temperature ( http://arxiv.org/abs/2201.06533v2 ) ライセンス: Link先を確認 | Tyler Helmuth, Ryan L. Mann | (参考訳) 我々は、古典スピン系の安定な量子摂動と見なすことができる、低温における量子スピン系のクラスの分配関数の効率的な近似アルゴリズムを確立する。
我々のアルゴリズムは、Borgs, Koteck\'y, Ueltschiによるこのタイプの量子スピン系の輪郭表現と、Helmuth, Perkins, Regts, Borgs et al によって開発されたアルゴリズムの枠組みを組み合わせることに基づいている。 We establish an efficient approximation algorithm for the partition functions of a class of quantum spin systems at low temperature, which can be viewed as stable quantum perturbations of classical spin systems. Our algorithm is based on combining the contour representation of quantum spin systems of this type due to Borgs, Koteck\'y, and Ueltschi with the algorithmic framework developed by Helmuth, Perkins, and Regts, and Borgs et al. | 翻訳日:2023-10-17 02:11:53 公開日:2023-10-13 |
# soundify:ビデオと音響効果のマッチング Soundify: Matching Sound Effects to Video ( http://arxiv.org/abs/2112.09726v3 ) ライセンス: Link先を確認 | David Chuan-En Lin, Anastasis Germanidis, Crist\'obal Valenzuela, Yining Shi, Nikolas Martelaro | (参考訳) ビデオ編集の分野では、音はオブジェクトに文字を追加し、空間内に視聴者を浸すのに役立つ。
プロの編集者との対談(n=10)を通じて,映像に音声を加える作業は困難であることがわかった。
本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。
ビデオが与えられると、soundifyは一致する音を認識し、音をビデオに同期させ、パンニングとボリュームを動的に調整して空間オーディオを生成する。
人間の評価研究(n=889)では、soundifyはさまざまなオーディオカテゴリーで音声とビデオとマッチングできることが示されている。
in-subjects expert study (n=12) では,より軽量な作業負荷,タスク完了時間の短縮,ユーザビリティ向上によるビデオ編集支援において, soundify の有用性を実証した。 In the art of video editing, sound helps add character to an object and immerse the viewer within a space. Through formative interviews with professional editors (N=10), we found that the task of adding sounds to video can be challenging. This paper presents Soundify, a system that assists editors in matching sounds to video. Given a video, Soundify identifies matching sounds, synchronizes the sounds to the video, and dynamically adjusts panning and volume to create spatial audio. In a human evaluation study (N=889), we show that Soundify is capable of matching sounds to video out-of-the-box for a diverse range of audio categories. In a within-subjects expert study (N=12), we demonstrate the usefulness of Soundify in helping video editors match sounds to video with lighter workload, reduced task completion time, and improved usability. | 翻訳日:2023-10-17 02:11:42 公開日:2023-10-13 |
# 最適時間安定に向けた政策最適化手法 A Policy Optimization Method Towards Optimal-time Stability ( http://arxiv.org/abs/2301.00521v2 ) ライセンス: Link先を確認 | Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni, Haotian Xu, Tao Zhang, Yang Gao | (参考訳) 現在のモデルフリー強化学習(RL)アルゴリズムでは、サンプリング法に基づく安定性基準が政策最適化の指針として一般的に用いられる。
しかしながら、これらの基準はシステムの状態の無限時間収束を平衡点にのみ保証し、政策の準最適性をもたらす。
本稿では,サンプリングに基づくリアプノフ安定性を取り入れた政策最適化手法を提案する。
我々のアプローチは、システムの状態が最適時間内で平衡点に達し、その後「最適時間安定」と呼ばれる安定性を維持することを可能にする。
そこで我々は,Actor-Criticフレームワークに最適化手法を統合することで,アダプティブリアプノフに基づくActor-Critic (ALAC)アルゴリズムを開発した。
10個のロボットタスクで実施した評価によって,従来の研究を大きく上回り,安定したパターンの生成を効果的に誘導する。 In current model-free reinforcement learning (RL) algorithms, stability criteria based on sampling methods are commonly utilized to guide policy optimization. However, these criteria only guarantee the infinite-time convergence of the system's state to an equilibrium point, which leads to sub-optimality of the policy. In this paper, we propose a policy optimization technique incorporating sampling-based Lyapunov stability. Our approach enables the system's state to reach an equilibrium point within an optimal time and maintain stability thereafter, referred to as "optimal-time stability". To achieve this, we integrate the optimization method into the Actor-Critic framework, resulting in the development of the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm. Through evaluations conducted on ten robotic tasks, our approach outperforms previous studies significantly, effectively guiding the system to generate stable patterns. | 翻訳日:2023-10-17 02:07:46 公開日:2023-10-13 |
# 相互作用クエンチ下におけるサンバースト量子イジングモデル:初期状態コヒーレンスの役割と絡み合い Sunburst quantum Ising model under interaction quench: entanglement and role of initial state coherence ( http://arxiv.org/abs/2212.12276v2 ) ライセンス: Link先を確認 | Akash Mitra and Shashi C. L. Srivastava | (参考訳) 分離された二成分量子系であるサンバースト量子イジングモデルの非平衡ダイナミクスを相互作用クエンチで研究する。
このモデルの事前クエンチ極限は、2つの非相互作用可積分系、すなわち横イジングチェーンと有限個の孤立量子ビットである。
相互作用強度の関数として、スペクトル変動特性はポアソンからウィグナー・ダイソン統計量へと変化する。
エンタングルメントエントロピーを熱化のアプローチや熱処理後の力学の欠如を研究するプローブとして選択した。
近可積分極限では、予想通り、線形エントロピーは振動挙動を示し、カオス限界では飽和する。
時間進化生成器のカオス的性質とともに, 初期状態のコヒーレンスが熱化の性質を決定する上で果たす役割の重要性を示す。
さらに,Ising環を多体局所化相に収まる障害強度を持つXXZ$モデルに置き換えることにより,これらの知見が一般的であることを示す。 We study the non-equilibrium dynamics of an isolated bipartite quantum system, the sunburst quantum Ising model, under interaction quench. The pre-quench limit of this model is two non-interacting integrable systems, namely a transverse ising chain and finite number of isolated qubits. As a function of interaction strength, the spectral fluctuation property goes from Poisson to Wigner-Dyson statistics. We chose entanglement entropy as a probe to study the approach to thermalization or lack of it in post-quench dynamics. In the near-integrable limit, as expected, the linear entropy displays oscillatory behavior while in the chaotic limit, it saturates. Along with the chaotic nature of the time evolution generator, we show the importance of the role played by the coherence of the initial state in deciding the nature of thermalization. We further show that these findings are general by replacing the Ising ring with a disordered $XXZ$ model with disorder strength putting it in the many-body localized phase. | 翻訳日:2023-10-17 02:07:09 公開日:2023-10-13 |
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v6 ) ライセンス: Link先を確認 | Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang | (参考訳) 近年,学習画像の圧縮性能は著しく向上している。
潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。
しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。
この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。
これらのモデルは潜在表現に存在する異なる種類の相関を捉える。
具体的には、まず潜在表現をスライスに分割する。
現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。
ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。
MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。
我々のMLICおよびMLIC$^+$モデルは、PSNRで測定されたVTM-17.0と比較して、Kodakデータセット上でのBDレートが8.05\%$と11.39\%$に減少する。
私たちのコードはhttps://github.com/jiangweibeta/mlicで利用可能です。 Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Our code will be available at https://github.com/JiangWeibeta/MLIC. | 翻訳日:2023-10-17 02:06:39 公開日:2023-10-13 |
# 原子場系進化を記述するための近似スキームと非エルミート再正規化 An approximation scheme and non-Hermitian re-normalization for description of atom-field system evolution ( http://arxiv.org/abs/2210.10345v3 ) ライセンス: Link先を確認 | Borhan Ahmadi, Ricard Ravell Rodr\'iguez, Robert Alicki, Micha{\l} Horodecki | (参考訳) 光源と原子との相互作用は自然界において普遍的である。
それらの研究は、アプリケーションだけでなく、基本的なレベルでも興味深い。
これらは量子情報処理タスクのコアであり、量子熱力学プロトコルである。
しかし、回転波近似の場と相互作用する2レベル原子でさえ、正確な解は存在しない。
これは場の量子論における基本的な問題であり、時間的漸近的限界(すなわちマイナスと無限大)の遷移しか計算できないが、進化を辿ることはできない。
本稿では、2段階の原子と連続モードの量子場からなる全系の時間進化についてより深い知見を得たい。
我々はダイソン展開の各順序に体系的に適用できる近似法を提案し、任意のタイミングで結合系の進化の計算式を大幅に単純化する。
我々のツールには、提案された新規な非エルミート的再正規化法が含まれている。
正当性チェックとして、我々のフレームワークを適用することで、既知の光ブロッホ方程式を導出する。 Interactions between a source of light and atoms are ubiquitous in nature. The study of them is interesting on the fundamental level as well as for applications. They are in the core of Quantum Information Processing tasks and in Quantum Thermodynamics protocols. However, even for two-level atom interacting with field in rotating wave approximation there exists no exact solution. This touches as basic problem in quantum field theory, where we can only calculate the transitions in the time asymptotic limits (i.e. minus and plus infinity), while we are not able to trace the evolution. In this paper we want to get more insight into the time evolution of a total system of a two-level atom and a continuous-mode quantum field. We propose an approximation, which we are able to apply systematically to each order of Dyson expansion, resulting in greatly simplified formula for the evolution of the combined system at any time. Our tools include a proposed novel, {\it non-Hermitian} re-normalization method. As a sanity check, by applying our framework, we derive the known optical Bloch equations. | 翻訳日:2023-10-17 02:05:45 公開日:2023-10-13 |
# フェルミオン性ランダム二次リウビリアンのスペクトルおよび定常特性 Spectral and steady-state properties of fermionic random quadratic Liouvillians ( http://arxiv.org/abs/2210.07959v2 ) ライセンス: Link先を確認 | Jo\~ao Costa, Pedro Ribeiro, Andrea de Luca, Toma\v{z} Prosen, and Lucas S\'a | (参考訳) リンドブラッド形式の二次フェルミオンリウビリアン作用素によって記述される一般マルコフ散逸系のスペクトルおよび定常特性について検討した。
ハミルトン力学は一般のランダム二次作用素、すなわちクラス d の特徴のない超伝導体によってモデル化され、マルコフ散逸は $m$ のランダム線型ジャンプ作用素によって記述される。
フェルミオンあたりの散逸強度と散逸チャネルの比を$m=M/(2N_F)$とすることにより、単粒子スペクトルの支持が1つまたは2つの連結成分を持つ2つの異なる位相を求める。
強い散逸状態では、この遷移は$m=1/2$で起こり、大きな時間力学を規定する定常状態とスペクトルギャップの両方の質的変化と一致している。
この閾値を超えると、スペクトルギャップと定常純度は、最近研究された完全ジェネリック(すなわち非量子)の場合と定性的に一致する。
m=1/2$以下では、スペクトルギャップは熱力学的極限で閉じ、定常状態はエルゴードと非エルゴードに分解され、非単調定常状態純度は散逸強度の関数として生じる。
以上の結果から, 完全ランダムなリウビリアンに対して以前に観測された普遍的特徴のいくつかは, 十分に多くのジャンプ作用素に対して汎用的であることが示された。
一方, 消散チャネル数が減少すると, システムは非エルゴディックな特徴を示すことができ, 強いシステム環境結合が存在する場合でも, 保護された部分空間における消散を抑制することができる。 We study spectral and steady-state properties of generic Markovian dissipative systems described by quadratic fermionic Liouvillian operators of the Lindblad form. The Hamiltonian dynamics is modeled by a generic random quadratic operator, i.e., as a featureless superconductor of class D, whereas the Markovian dissipation is described by $M$ random linear jump operators. By varying the dissipation strength and the ratio of dissipative channels per fermion, $m=M/(2N_F)$, we find two distinct phases where the support of the single-particle spectrum has one or two connected components. In the strongly dissipative regime, this transition occurs for $m=1/2$ and is concomitant with a qualitative change in both the steady-state and the spectral gap that rules the large-time dynamics. Above this threshold, the spectral gap and the steady-state purity qualitatively agree with the fully generic (i.e., non-quadratic) case studied recently. Below $m=1/2$, the spectral gap closes in the thermodynamic limit and the steady-state decouples into an ergodic and a nonergodic sector yielding a non-monotonic steady-state purity as a function of the dissipation strength. Our results show that some of the universal features previously observed for fully random Liouvillians are generic for a sufficiently large number of jump operators. On the other hand, if the number of dissipation channels is decreased the system can exhibit nonergodic features, rendering it possible to suppress dissipation in protected subspaces even in the presence of strong system-environment coupling. | 翻訳日:2023-10-17 02:05:31 公開日:2023-10-13 |
# 深層強化学習による効率的ハーフトンニング Efficient Halftoning via Deep Reinforcement Learning ( http://arxiv.org/abs/2304.12152v2 ) ライセンス: Link先を確認 | Haitian Jiang, Dongliang Xiong, Xiaowen Jiang, Li Ding, Liang Chen, Kai Huang | (参考訳) ハーフトニングは、2つの離散レベルに制限された画素で連続トーン画像を再現することを目的としている。
この技術はすべてのプリンタに実装されており、その大半は高速な方法(例えば、順序付きディザリング、エラー拡散)を採用しており、構造的な詳細をレンダリングできず、ハーフトンの品質を決定する。
反対に、最適なハーフトーン解を探索することで視覚的快楽を追求する他の以前の方法は、高い計算コストに苦しむ。
本稿では,データ駆動アプローチによる高速で構造に配慮したハーフトンニング手法を提案する。
具体的には、各バイナリピクセルの値が共有完全畳み込みニューラルネットワーク(CNN)ポリシを持つ仮想エージェントによって選択されたアクションとみなされる強化学習問題としてハーフトニングを定式化する。
オフライン段階では、有効勾配推定器を用いて、1つの作用ステップで高品質なハーフトンを生産するエージェントを訓練する。
すると、半音は1つの高速CNN推論によってオンラインで生成できる。
また, 損失関数を抑制する新しい異方性を提案し, 所望の青色ノイズ特性をもたらす。
最後に、SSIMの最適化は平坦な領域に穴を開ける可能性があり、コントーンのコントラストマップで計量を重み付けすることで避けることができる。
実験により,従来の構造認識手法の15倍高速である軽量cnnを効果的に訓練し,良好な視覚品質を有する青色半音を生成することができた。
また,本手法の拡張性を示すために,deep multitoningのプロトタイプを提案する。 Halftoning aims to reproduce a continuous-tone image with pixels whose intensities are constrained to two discrete levels. This technique has been deployed on every printer, and the majority of them adopt fast methods (e.g., ordered dithering, error diffusion) that fail to render structural details, which determine halftone's quality. Other prior methods of pursuing visual pleasure by searching for the optimal halftone solution, on the contrary, suffer from their high computational cost. In this paper, we propose a fast and structure-aware halftoning method via a data-driven approach. Specifically, we formulate halftoning as a reinforcement learning problem, in which each binary pixel's value is regarded as an action chosen by a virtual agent with a shared fully convolutional neural network (CNN) policy. In the offline phase, an effective gradient estimator is utilized to train the agents in producing high-quality halftones in one action step. Then, halftones can be generated online by one fast CNN inference. Besides, we propose a novel anisotropy suppressing loss function, which brings the desirable blue-noise property. Finally, we find that optimizing SSIM could result in holes in flat areas, which can be avoided by weighting the metric with the contone's contrast map. Experiments show that our framework can effectively train a light-weight CNN, which is 15x faster than previous structure-aware methods, to generate blue-noise halftones with satisfactory visual quality. We also present a prototype of deep multitoning to demonstrate the extensibility of our method. | 翻訳日:2023-10-17 01:46:14 公開日:2023-10-13 |
# ReelFramer:ニューズ・トゥ・ビデオ翻訳のためのヒューマンAI共同編集 ReelFramer: Human-AI Co-Creation for News-to-Video Translation ( http://arxiv.org/abs/2304.09653v2 ) ライセンス: Link先を確認 | Sitong Wang, Samia Menon, Tao Long, Keren Henderson, Dingzeyu Li, Kevin Crowston, Mark Hansen, Jeffrey V. Nickerson, Lydia B. Chilton | (参考訳) ソーシャルメディア上の短いビデオは、若者がコンテンツを消費する主要な方法だ。
ニュースメディアはニュースリール(ニュースを流すショートビデオ)を通じて視聴者にリーチしたいが、伝統的なジャーナリストのフォーマットを短い口語のビデオに変換するのに苦労している。
生成AIは、コンテンツを変換する可能性があるが、多くの場合、それ自体が正確で一貫性がない。
ジャーナリストがニュースリールのためのスクリプトやストーリーボードを作成するのを助けるために、ReelFramerと呼ばれる人間とAIの共同制作システムを導入する。
フレーミングとファンデーションの中間ステップを使用して、AIをより良いアウトプットへと導く。
ニュースリールにおける情報とエンターテイメントのバランスをとるために,3つの物語フレームを導入する。
脚本の基礎は前提であり、ストーリーボードの基礎はキャラクターボードである。
我々の研究は、この前提がより適切で一貫性のあるスクリプトを生成するのに役立つことを示しており、aiとの共同制作はジャーナリストによる最初のニュースリール作成の障壁を低くする。 Short videos on social media are the dominant way young people consume content. News outlets would like to reach audiences through news reels - short videos that convey news - but struggle to translate traditional journalistic formats into short, colloquial videos. Generative AI has the potential to transform content but often fails to be correct and coherent by itself. To help journalists create scripts and storyboards for news reels, we introduce a human-AI co-creative system called ReelFramer. It uses an intermediate step of framing and foundation to guide AI toward better outputs. We introduce three narrative framings to balance information and entertainment in news reels. The foundation for the script is a premise, and the foundation for the storyboard is a character board. Our studies show that the premise helps generate more relevant and coherent scripts and that co-creating with AI lowers journalists' barriers to making their first news reels. | 翻訳日:2023-10-17 01:45:49 公開日:2023-10-13 |
# グラフニューラルネットワークによる粒子物理過程の位相再構成 Topological Reconstruction of Particle Physics Processes using Graph Neural Networks ( http://arxiv.org/abs/2303.13937v5 ) ライセンス: Link先を確認 | Lukas Ehrke, John Andrew Raine, Knut Zoch, Manuel Guth, Tobias Golling | (参考訳) 本稿では,粒子の減衰とメッセージパッシンググラフニューラルネットワークの柔軟性を基礎として,中間粒子を含む基礎となる物理過程を再構築する新しい手法であるtopographを提案する。
トポグラフは観測された最終状態天体の組合せ的な割り当てを解き、元の母粒子と関連付けるだけでなく、ハード散乱過程における中間粒子の性質とそれに続く崩壊を直接予測する。
グラフニューラルネットワークを用いた標準的なコンビネータアプローチや現代的なアプローチと比較すると、グラフの複雑さは再構成されたオブジェクトの数と線形にスケールする。
我々は、全ハドロン減衰チャネルにおけるトップクォーク対生成にトポグラフを適用し、標準手法より優れ、最先端の機械学習技術の性能に適合する。 We present a new approach, the Topograph, which reconstructs underlying physics processes, including the intermediary particles, by leveraging underlying priors from the nature of particle physics decays and the flexibility of message passing graph neural networks. The Topograph not only solves the combinatoric assignment of observed final state objects, associating them to their original mother particles, but directly predicts the properties of intermediate particles in hard scatter processes and their subsequent decays. In comparison to standard combinatoric approaches or modern approaches using graph neural networks, which scale exponentially or quadratically, the complexity of Topographs scales linearly with the number of reconstructed objects. We apply Topographs to top quark pair production in the all hadronic decay channel, where we outperform the standard approach and match the performance of the state-of-the-art machine learning technique. | 翻訳日:2023-10-17 01:45:32 公開日:2023-10-13 |
# 長期屋内定位のためのフロアプランプリエントを用いたメートル法スキームマップの構築 Constructing Metric-Semantic Maps using Floor Plan Priors for Long-Term Indoor Localization ( http://arxiv.org/abs/2303.10959v2 ) ライセンス: Link先を確認 | Nicky Zimmerman and Matteo Sodano and Elias Marks and Jens Behley and Cyrill Stachniss | (参考訳) オブジェクトベースのマップは、環境の幾何学的および意味的な情報を統合し、自律ロボットがオブジェクトに対して堅牢なローカライズと相互作用を可能にするため、シーン理解に関係している。
本稿では,長期オブジェクトベースローカライゼーションを目的としたメートル法セマンティックマップ構築の課題に対処する。
モノラルなRGBフレームからの3次元物体検出,オブジェクトベースのマップ構築,および構築されたマップのグローバルなローカライズに活用する。
対象環境へのアプローチを調整するために,3次元オブジェクト検出モデルを微調整する3Dアノテーションを生成する効率的な方法を提案する。
オフィスビルにおけるマップ構築を評価し,同じ環境で9ヶ月にわたって記録された課題シーケンスの長期的局所化手法を検証した。
実験により,本手法は距離列写像の構築に適しており,局所化手法は長期的変化に対して堅牢であることが示唆された。
マッピングアルゴリズムとローカライゼーションパイプラインはどちらも,オンボードコンピュータ上でオンラインで動作する。
このアプローチのオープンソースC++/ROS実装をリリースします。 Object-based maps are relevant for scene understanding since they integrate geometric and semantic information of the environment, allowing autonomous robots to robustly localize and interact with on objects. In this paper, we address the task of constructing a metric-semantic map for the purpose of long-term object-based localization. We exploit 3D object detections from monocular RGB frames for both, the object-based map construction, and for globally localizing in the constructed map. To tailor the approach to a target environment, we propose an efficient way of generating 3D annotations to finetune the 3D object detection model. We evaluate our map construction in an office building, and test our long-term localization approach on challenging sequences recorded in the same environment over nine months. The experiments suggest that our approach is suitable for constructing metric-semantic maps, and that our localization approach is robust to long-term changes. Both, the mapping algorithm and the localization pipeline can run online on an onboard computer. We release an open-source C++/ROS implementation of our approach. | 翻訳日:2023-10-17 01:45:16 公開日:2023-10-13 |
# 画像から特徴へ:変分オートエンコーダとドメイン適応による不偏形形態分類 From Images to Features: Unbiased Morphology Classification via Variational Auto-Encoders and Domain Adaptation ( http://arxiv.org/abs/2303.08627v2 ) ライセンス: Link先を確認 | Quanfeng Xu, Shiyin Shen, Rafael S. de Souza, Mi Chen, Renhao Ye, Yumei She, Zhu Chen, Emille E. O. Ishida, Alberto Krone-Martins, Rupesh Durgesh | (参考訳) 本稿では,変分オートエンコーダ (VAE) と領域適応 (DA) を組み合わせることで,銀河画像の次元化の新たなアプローチを提案する。
本手法の有効性を,Galaxy-Zoo DECaLSプロジェクトの詳細な形態型ラベルを持つ低赤方偏移銀河のサンプルを用いて示す。
我々は,40次元潜伏変数が銀河画像のほとんどの形態的特徴を効果的に再現できることを示す。
本手法の有効性をさらに検証するために,40次元潜伏変数を用いた古典的ランダムフォレスト(rf)分類器を用いて詳細な形態的特徴分類を行った。
このアプローチは、銀河画像上の直接ニューラルネットワークアプリケーションと同様に機能する。
我々は、DECLSとBASS+MzLSの重なり合うフットプリントにおける銀河を用いたDAによるVAEネットワークのチューニングにより、我々のモデルをさらに強化する。
その結果,DAは形態学的特徴抽出と分類性能が向上した。
概して、このvaeとdaの組み合わせは、大きな光学探査において画像次元の縮小、欠陥画像の同定、形態分類を達成するために応用することができる。 We present a novel approach for the dimensionality reduction of galaxy images by leveraging a combination of variational auto-encoders (VAE) and domain adaptation (DA). We demonstrate the effectiveness of this approach using a sample of low redshift galaxies with detailed morphological type labels from the Galaxy-Zoo DECaLS project. We show that 40-dimensional latent variables can effectively reproduce most morphological features in galaxy images. To further validate the effectiveness of our approach, we utilised a classical random forest (RF) classifier on the 40-dimensional latent variables to make detailed morphology feature classifications. This approach performs similarly to a direct neural network application on galaxy images. We further enhance our model by tuning the VAE network via DA using galaxies in the overlapping footprint of DECaLS and BASS+MzLS, enabling the unbiased application of our model to galaxy images in both surveys. We observed that DA led to even better morphological feature extraction and classification performance. Overall, this combination of VAE and DA can be applied to achieve image dimensionality reduction, defect image identification, and morphology classification in large optical surveys. | 翻訳日:2023-10-17 01:44:58 公開日:2023-10-13 |
# トランスフォーマーによる単一セルマルチモーダル予測 Single-Cell Multimodal Prediction via Transformers ( http://arxiv.org/abs/2303.00233v3 ) ライセンス: Link先を確認 | Wenzhuo Tang, Hongzhi Wen, Renming Liu, Jiayuan Ding, Wei Jin, Yuying Xie, Hui Liu, Jiliang Tang | (参考訳) 近年のマルチモーダル単一細胞技術の発展により、個々の細胞から複数のオミクスデータを取得することが可能となり、細胞状態やダイナミクスのより深い理解が可能となった。
それでも、マルチモーダルな単細胞データの増殖は、異なるモダリティ間の複雑な相互作用をモデル化する上で大きな課題をもたらす。
近年の手法では,静的相互作用グラフの構築とグラフニューラルネットワーク(gnns)を適用し,マルチモーダルデータから学習する。
しかし、このような静的グラフは、ダウンストリームのタスク情報を利用することができないため、最適ではない可能性がある。
そこで本研究では,ダウンストリームタスク情報を活用しながら,マルチモーダル・シングルセル・データに対するトランスフォーマーの活用方法について検討する。
特に、外部のドメイン知識を容易に組み込むことができ、各モダリティとクロスモーダルの相互作用をモデル化できる scMoFormer フレームワークを提案する。
scMoFormerはさまざまなベンチマークデータセットで優れたパフォーマンスを実現している。
注目すべきは、skMoFormerが24/1221 (Top 2%)というランクのカグル銀メダルを獲得したことだ。
私たちの実装はgithubで公開されています。 The recent development of multimodal single-cell technology has made the possibility of acquiring multiple omics data from individual cells, thereby enabling a deeper understanding of cellular states and dynamics. Nevertheless, the proliferation of multimodal single-cell data also introduces tremendous challenges in modeling the complex interactions among different modalities. The recently advanced methods focus on constructing static interaction graphs and applying graph neural networks (GNNs) to learn from multimodal data. However, such static graphs can be suboptimal as they do not take advantage of the downstream task information; meanwhile GNNs also have some inherent limitations when deeply stacking GNN layers. To tackle these issues, in this work, we investigate how to leverage transformers for multimodal single-cell data in an end-to-end manner while exploiting downstream task information. In particular, we propose a scMoFormer framework which can readily incorporate external domain knowledge and model the interactions within each modality and cross modalities. Extensive experiments demonstrate that scMoFormer achieves superior performance on various benchmark datasets. Remarkably, scMoFormer won a Kaggle silver medal with the rank of 24/1221 (Top 2%) without ensemble in a NeurIPS 2022 competition. Our implementation is publicly available at Github. | 翻訳日:2023-10-17 01:44:27 公開日:2023-10-13 |
# 無秩序キタエフモデルにおける創発性グラスネス:密度行列再正規化群による1次元ラダー設定の研究 Emergent glassiness in disorder-free Kitaev model: Density matrix renormalization group study on a one-dimensional ladder setting ( http://arxiv.org/abs/2302.14328v2 ) ライセンス: Link先を確認 | K. B. Yogendra, Tanmoy Das, G. Baskaran | (参考訳) 磁場を持つキタエフモデルの完全な位相図は、候補物質 {\alpha}-RuCl3 の実験的結果と同様に、まだ解明されていない。
本稿では,ゼロ温度の磁場が存在する場合の密度行列再正規化群法における1次元ラダー設定におけるキタエフモデルについて検討する。
磁場が増大する5つの異なる相は、均質なフラックス相、z2渦ガス、固体および創発性ガラス相、そして最後にスピン偏極相によって特徴づけられる。
準長距離挙動と基底状態の忠実性を示す相関関数を算出し、異なるフラックス構成に対応するエネルギー的にアクセス可能な直交サドル点の多さを示すことにより、創発性ガラス性を確認する。
このガラスの挙動は、下層のヒルベルト空間に存在する局所的な制約の結果である z2 フラックスのゆっくりとしたダイナミクスから生じるように見える。
この現象は、対応する低エネルギー励起が制約によって同様に取り除かれる他のスピン液体系でも探索できる。 The complete phase diagram of the Kitaev model with a magnetic field remains elusive, as do the experimental results in the candidate material {\alpha}-RuCl3. Here, we study the Kitaev model on a one-dimensional ladder setting within the density-matrix renormalization group method in the presence of a magnetic field at zero temperature. We find five distinct phases with increasing magnetic field, which are characterized by a homogeneous flux phase, the Z2 vortex gas, solid and emergent glass phase, and finally, a spin-polarized phase. The emergent glassiness is confirmed by calculating correlation functions showing quasi-long-range behavior and ground state fidelity, showing a plethora of energetically accessible orthogonal saddle points corresponding to different flux configurations. This glassy behavior seems to arise from the slow dynamics of the Z2 fluxes, which is a consequence of the local constraints present in the underlying Hilbert space. This phenomenon can also be explored in other spin-liquid systems where the corresponding low-energy excitations are similarly retarded due to constraints. | 翻訳日:2023-10-17 01:44:07 公開日:2023-10-13 |
# Sachdev-Ye-Kitaev型モデルにおけるリアプノフ指数の共形極限とそれを超える集団不均衡 Lyapunov exponents in a Sachdev-Ye-Kitaev-type model with population imbalance in the conformal limit and beyond ( http://arxiv.org/abs/2302.08876v2 ) ライセンス: Link先を確認 | A. S. Shankar, M. Fremling, S. Plugge, L. Fritz | (参考訳) SYKモデル(Sachdev-Ye-Kitaev)は、最大リアプノフ指数を持つカオス挙動を示す。
本稿では,SYK型モデルの4点関数を数値的に検討し,リアプノフ指数にアクセスできるようにする。
このモデルは、A と B と呼ばれるマヨラナフェルミオンの2つの集合で構成され、相互作用は集合内ではなく2つの集合間の対関係に限定される。
リャプノフ指数は依然として強いカップリングにおいて最大である。
さらに、A と B のフェルミオンの共形次元は集団比によって変化するが、リャプノフ指数は、それが最大である共形極限だけでなく、中間的および弱結合状態においても一定であることを示す。 The Sachdev-Ye-Kitaev (SYK) model shows chaotic behavior with a maximal Lyapunov exponent. In this paper, we investigate the four-point function of a SYK-type model numerically, which gives us access to its Lyapunov exponent. The model consists of two sets of Majorana fermions, called A and B, and the interactions are restricted to being exclusively pairwise between the two sets, not within the sets. We find that the Lyapunov exponent is still maximal at strong coupling. Furthermore, we show that even though the conformal dimensions of the A and B fermions change with the population ratio, the Lyapunov exponent remains constant, not just in the conformal limit where it is maximal, but also in the intermediate and weak coupling regimes. | 翻訳日:2023-10-17 01:43:25 公開日:2023-10-13 |
# 行列積演算子を用いた損失ガウスボソンサンプリングのシミュレーション Simulating lossy Gaussian boson sampling with matrix product operators ( http://arxiv.org/abs/2301.12814v4 ) ライセンス: Link先を確認 | Minzhao Liu, Changhun Oh, Junyu Liu, Liang Jiang, Yuri Alexeev | (参考訳) 量子超越性を認めていると広く信じられている計算モデルgaussian boson samplingは、すでに実験的に実証されており、今日の最も強力なスーパーコンピュータの古典的シミュレーション能力を超えていると主張している。
しかし、このような実験で光子損失とノイズに制限された現在のアプローチが量子優位へのスケーラブルな道筋を定めているかどうかは、未解決の問題である。
ガウスボソンサンプリングのスケーラビリティに対する光子損失の影響を理解するため,シミュレーションの複雑さに関連する漸近的作用素エントロピースケーリングを解析的に導出した。
その結果,n_\text{out}\propto\sqrt{n}$入力光子数で生存する光子数 orange$n_\text{out}$ のスケーリングにより,効率的なテンソルネットワークシミュレーションが可能となる。
U(1)$対称性を持つテンソルネットワークアルゴリズムを用いて,この結果を数値的に検証し,ハードウェアアクセラレーションによるガウスボソンサンプリングにおける局所ヒルベルト空間次元の増大による過去の課題を克服する。
さらに, 光子数の増加は, エンタングルメントのエントロピーを著しく増加させるものではないことが観察された。
最後に、固定精度シミュレーションに必要な結合次元を数値的に見つけ、テンソルネットワークの複雑さのより直接的な証拠を提供する。 Gaussian boson sampling, a computational model that is widely believed to admit quantum supremacy, has already been experimentally demonstrated and is claimed to surpass the classical simulation capabilities of even the most powerful supercomputers today. However, whether the current approach limited by photon loss and noise in such experiments prescribes a scalable path to quantum advantage is an open question. To understand the effect of photon loss on the scalability of Gaussian boson sampling, we analytically derive the asymptotic operator entanglement entropy scaling, which relates to the simulation complexity. As a result, we observe that efficient tensor network simulations are likely possible under the $N_\text{out}\propto\sqrt{N}$ scaling of the number of surviving photons orange$N_\text{out}$ in the number of input photons $N$. We numerically verify this result using a tensor network algorithm with $U(1)$ symmetry, and overcome previous challenges due to the large local Hilbert space dimensions in Gaussian boson sampling with hardware acceleration. Additionally, we observe that increasing the photon number through larger squeezing does not increase the entanglement entropy significantly. Finally, we numerically find the bond dimension necessary for fixed accuracy simulations, providing more direct evidence for the complexity of tensor networks. | 翻訳日:2023-10-17 01:43:04 公開日:2023-10-13 |
# 知的取引確率波方程式に基づく複雑適応学習の一理論 A Theory of Complex Adaptive Learning Based on a Subject's Intelligent Trading Probability Wave Equation ( http://arxiv.org/abs/2306.15554v8 ) ライセンス: Link先を確認 | Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang | (参考訳) 複雑な適応学習は知的です。
適応的で、フィードバックループで学び、多くの個人、要素、粒子が複雑な適応システム(CAS)で相互作用するように隠れたパターンを生成する。
生命と無生物の複雑な系において不確実かつ不可欠である。
しかし、そのメカニズムをシミュレートし明らかにすることは難しい。
著者らはCASにおける確率波による不確かさを定量化し、金融市場の知的取引量-価格確率波方程式から複雑な適応学習の法則を抽出しようと試み、これを法則に従う複素量子系に適用し、約1世紀にわたって議論された量子絡み合いの革新的な2世界解釈を持つ。
粒子は相互作用的コヒーレンスにおいて知能的性質を持ち、複雑な適応量子系において累積量や体積が運動量を表す場合ニュートンの法則に違反する。
量子絡み合いは、2つのコヒーレントな状態の重なりではなく、コペンハーゲンの主観的解釈である。
これは2つの反対の適応力と相補力の相互作用におけるコヒーレントな状態である。
この2つのインテリジェントなパワーは相互作用の不変性を保ち、二部体の複素適応量子系における2つの反対の性質と相互作用的にコヒーレントな絡み合いを生成する。
キーワード:複雑な適応システム、複雑な適応学習、インテリジェンスライクな粒子、インテリジェントな確率波、二世界解釈、対話的コヒーレントな絡み合い PACS:89.75.k(複合システム)、89.65.Gh(経済学、経済物理学、金融市場、ビジネスとマネジメント)、03.65.Ud(エンタングルメントと量子非局所性) Complex adaptive learning is intelligent. It is adaptive, learns in feedback loops, and generates hidden patterns as many individuals, elements or particles interact in complex adaptive systems (CASs). It is uncertain and crucial in life and inanimate complex systems. However, it is challenging to simulate and reveal its mechanism. Quantifying the uncertainty by probability waves in CASs, the authors attempt to extract a law of complex adaptive learning from a subject's intelligent trading volume-price probability wave equation in the financial markets, apply it to inanimate complex quantum systems that obey the law and have innovative two-worlds interpretations of the quantum entanglement debated for nearly a century. It says particles possess an intelligence-like property in interactive coherence and violate Newton's laws if cumulative quantity or volume in a time interval represents momentum in complex adaptive quantum systems. It concludes that quantum entanglement is not a superposition of two coherent states as mainstream Copenhagen interprets. It is a coherent state in interaction between two opposite, adaptive, and complementary forces. The two intelligent powers keep an invariance of interaction and generate particles' interactively coherent entanglement with two opposite properties in a bipartite complex adaptive quantum system, suggesting industrialized production of quantum entanglement available. Keywords: complex adaptive systems, complex adaptive learning, intelligence-like particle, intelligent probability wave, two-world interpretation, interactively coherent entanglement PACS: 89.75.-k (Complex Systems); 89.65.Gh (Economics, Econophysics, Financial Markets, Business and Management); 03.65.Ud (Entanglement and Quantum Nonlocality) | 翻訳日:2023-10-17 01:36:59 公開日:2023-10-13 |
# 自律的物理情報学習による正確な融点予測 Accurate melting point prediction through autonomous physics-informed learning ( http://arxiv.org/abs/2306.13345v2 ) ライセンス: Link先を確認 | Olga Klimanova, Timofei Miryashkin, Alexander Shapeev | (参考訳) NPTアンサンブルにおける共存シミュレーションから自律的に学習することで融点を計算するアルゴリズムを提案する。
原子間相互作用モデルに基づき、シミュレーションを行う原子の数と温度について決定を行い、収集されたデータに基づいて不確実性とともに融点を予測し、より多くのデータで体系的に改善することができる。
固液共存進化の物理モデルを統合することにより,アルゴリズムの精度が向上し,最適決定が予測の不確実性を効果的に低減できることを示す。
本手法の有効性を検証するため,20個の融点計算結果と計算結果を比較した。
顕著な点として,約3分の1のケースにおいて,材料資産計算の正確かつ信頼性の高いアルゴリズムの必要性が強調されている。 We present an algorithm for computing melting points by autonomously learning from coexistence simulations in the NPT ensemble. Given the interatomic interaction model, the method makes decisions regarding the number of atoms and temperature at which to conduct simulations, and based on the collected data predicts the melting point along with the uncertainty, which can be systematically improved with more data. We demonstrate how incorporating physical models of the solid-liquid coexistence evolution enhances the algorithm's accuracy and enables optimal decision-making to effectively reduce predictive uncertainty. To validate our approach, we compare the results of 20 melting point calculations from the literature to the results of our calculations, all conducted with same interatomic potentials. Remarkably, we observe significant deviations in about one-third of the cases, underscoring the need for accurate and reliable algorithms for materials property calculations. | 翻訳日:2023-10-17 01:36:05 公開日:2023-10-13 |
# キックスピン鎖の量子カオス性 Characterizing quantum chaoticity of kicked spin chains ( http://arxiv.org/abs/2306.09034v2 ) ライセンス: Link先を確認 | Tabea Herrmann, Maximilian F. I. Kieler, Arnd B\"acker | (参考訳) 量子多体系は、レベル間隔分布のようなスペクトル統計がランダム行列理論のものと一致する場合、一般に量子カオスと見なされる。
蹴られたイジングチェインの例を用いて、階層間隔分布と固有ベクトル統計がランダム行列予測とよく一致するとしても、エントロピーは期待されたページ曲線から逸脱することを示した。
この観察を説明するために, 有効スピン相互作用の新しい尺度を提案し, 対応するランダム行列結果を得る。
これにより、エンタングルメントエントロピーの偏差は、RTTと比較して$k$-スピン相互作用の挙動が著しく異なることに起因する。 Quantum many-body systems are commonly considered as quantum chaotic if their spectral statistics, such as the level spacing distribution, agree with those of random matrix theory. Using the example of the kicked Ising chain we demonstrate that even if both level spacing distribution and eigenvector statistics agree well with random matrix predictions, the entanglement entropy deviates from the expected Page curve. To explain this observation we propose a new measure of the effective spin interactions and obtain the corresponding random matrix result. By this the deviations of the entanglement entropy can be attributed to significantly different behavior of the $k$-spin interactions compared with RMT. | 翻訳日:2023-10-17 01:35:51 公開日:2023-10-13 |
# 非線形制約下でのオンライン学習 Online Learning under Adversarial Nonlinear Constraints ( http://arxiv.org/abs/2306.03655v2 ) ライセンス: Link先を確認 | Pavel Kolev, Georg Martius, Michael Muehlebach | (参考訳) 多くのアプリケーションでは、学習システムは連続的な非定常データストリームを処理する必要がある。
本稿では,この問題をオンライン学習フレームワークで研究し,逆時間的制約や非線形制約に対処できるアルゴリズムを提案する。
我々の研究で示したように、Constraint Violation Velocity Projection (CVV-Pro) と呼ばれるアルゴリズムは、学習者にとって徐々に時間変化し、先行性がないにもかかわらず、後悔し、実現可能なセットに1/\sqrt{T}$で収束する。
CVV-Proは、実現可能な集合の局所スパース線型近似にのみ依存するため、各反復における集合全体の最適化を回避し、射影勾配やフランク=ウルフ法とは対照的である。
また,プレイヤーが共有制約を受ける2プレイヤーゲームにおいて,アルゴリズムを経験的に評価する。 In many applications, learning systems are required to process continuous non-stationary data streams. We study this problem in an online learning framework and propose an algorithm that can deal with adversarial time-varying and nonlinear constraints. As we show in our work, the algorithm called Constraint Violation Velocity Projection (CVV-Pro) achieves $\sqrt{T}$ regret and converges to the feasible set at a rate of $1/\sqrt{T}$, despite the fact that the feasible set is slowly time-varying and a priori unknown to the learner. CVV-Pro only relies on local sparse linear approximations of the feasible set and therefore avoids optimizing over the entire set at each iteration, which is in sharp contrast to projected gradients or Frank-Wolfe methods. We also empirically evaluate our algorithm on two-player games, where the players are subjected to a shared constraint. | 翻訳日:2023-10-17 01:35:39 公開日:2023-10-13 |
# 非構造化データに基づく基礎スキル優先による言語条件付き模倣学習 Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data ( http://arxiv.org/abs/2305.19075v3 ) ライセンス: Link先を確認 | Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alois Knoll | (参考訳) 言語条件ロボット操作への関心が高まる中、ロボットが言語コマンドを解釈し、それに従ってオブジェクトを操作することを可能にする目的で、複雑なタスクの理解と実行が可能なロボットの開発が目的である。
言語条件付きアプローチは、慣れ親しんだ環境でタスクに対処するための素晴らしい能力を示しているが、慣れ親しんだ環境設定への適応の限界に遭遇する。
本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を強化する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
シミュレーション環境において,提案手法は,これまでに報告されたカルビンベンチマーク,特に挑戦的ゼロショットマルチ環境設定のスコアを上回った。
エージェントが連続的に完了できるタスクの平均数を示す平均タスク長は、最先端のHULCに比べて2.5倍以上改善されている。
さらに,具体的な適応を伴わずにシミュレーション環境のみを対象としたトレーニングを行い,実世界におけるポリシーのゼロショット評価を行った。
本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。
コードやビデオへのアクセスなど、詳細はhttps://hk-zh.github.io/spil/を参照してください。 The growing interest in language-conditioned robot manipulation aims to develop robots capable of understanding and executing complex tasks, with the objective of enabling robots to interpret language commands and manipulate objects accordingly. While language-conditioned approaches demonstrate impressive capabilities for addressing tasks in familiar environments, they encounter limitations in adapting to unfamiliar environment settings. In this study, we propose a general-purpose, language-conditioned approach that combines base skill priors and imitation learning under unstructured data to enhance the algorithm's generalization in adapting to unfamiliar environments. We assess our model's performance in both simulated and real-world environments using a zero-shot setting. In the simulated environment, the proposed approach surpasses previously reported scores for CALVIN benchmark, especially in the challenging Zero-Shot Multi-Environment setting. The average completed task length, indicating the average number of tasks the agent can continuously complete, improves more than 2.5 times compared to the state-of-the-art method HULC. In addition, we conduct a zero-shot evaluation of our policy in a real-world setting, following training exclusively in simulated environments without additional specific adaptations. In this evaluation, we set up ten tasks and achieved an average 30% improvement in our approach compared to the current state-of-the-art approach, demonstrating a high generalization capability in both simulated environments and the real world. For further details, including access to our code and videos, please refer to https://hk-zh.github.io/spil/ | 翻訳日:2023-10-17 01:35:20 公開日:2023-10-13 |
# 動的帯域幅を考慮したタスク対応分散音源符号化 Task-aware Distributed Source Coding under Dynamic Bandwidth ( http://arxiv.org/abs/2305.15523v3 ) ライセンス: Link先を確認 | Po-han Li, Sravan Kumar Ankireddy, Ruihan Zhao, Hossein Nourkhiz Mahjoub, Ehsan Moradi-Pari, Ufuk Topcu, Sandeep Chinchali, Hyeji Kim | (参考訳) マルチセンサネットワークにおける通信過負荷を最小限に抑えるためには,相関データの効率的な圧縮が不可欠である。
このようなネットワークでは、各センサが独立してデータを圧縮し、通信帯域が限られているため中央ノードに送信する。
中央ノードのデコーダはデータを圧縮し、トレーニング済みの機械学習ベースのタスクに渡して最終的な出力を生成する。
したがって,タスクに関連する特徴を圧縮することが重要である。
さらに、最終的なパフォーマンスは利用可能な帯域幅に大きく依存する。
実際には、帯域幅のばらつきに遭遇することが一般的であり、より高い帯域幅でタスクの性能が向上する。
我々は,ニューラル分散主成分分析(neural distributed principal component analysis, ndpca)と呼ばれる,独立したエンコーダとジョイントデコーダからなる新しい分散圧縮フレームワークを設計した。
NDPCAは、複数のソースからのデータを単一のモデルで任意の帯域に柔軟に圧縮し、計算とストレージのオーバーヘッドを減らす。
NDPCAは、低ランクなタスク表現を学習し、センサ間の帯域幅を効率よく分散することにより、性能と帯域幅の良好なトレードオフを提供する。
実験の結果,NDPCAはマルチビューロボットアーム操作の成功率を9%向上し,衛星画像上の物体検出タスクの精度を14%向上した。 Efficient compression of correlated data is essential to minimize communication overload in multi-sensor networks. In such networks, each sensor independently compresses the data and transmits them to a central node due to limited communication bandwidth. A decoder at the central node decompresses and passes the data to a pre-trained machine learning-based task to generate the final output. Thus, it is important to compress the features that are relevant to the task. Additionally, the final performance depends heavily on the total available bandwidth. In practice, it is common to encounter varying availability in bandwidth, and higher bandwidth results in better performance of the task. We design a novel distributed compression framework composed of independent encoders and a joint decoder, which we call neural distributed principal component analysis (NDPCA). NDPCA flexibly compresses data from multiple sources to any available bandwidth with a single model, reducing computing and storage overhead. NDPCA achieves this by learning low-rank task representations and efficiently distributing bandwidth among sensors, thus providing a graceful trade-off between performance and bandwidth. Experiments show that NDPCA improves the success rate of multi-view robotic arm manipulation by 9% and the accuracy of object detection tasks on satellite imagery by 14% compared to an autoencoder with uniform bandwidth allocation. | 翻訳日:2023-10-17 01:34:56 公開日:2023-10-13 |
# Newton-Cotes Graph Neural Networks: 動的システムの時間進化について Newton-Cotes Graph Neural Networks: On the Time Evolution of Dynamic Systems ( http://arxiv.org/abs/2305.14642v2 ) ライセンス: Link先を確認 | Lingbing Guo, Weiqing Wang, Zhuo Chen, Ningyu Zhang, Zequn Sun, Yixuan Lai, Qiang Zhang, and Huajun Chen | (参考訳) 推論システムダイナミクスは、多くの科学研究において最も重要な分析的アプローチの一つである。
システムの初期状態が入力となると、最近のグラフニューラルネットワーク(gnns)ベースの手法は、時間内に遠く離れた将来の状態を高精度に予測することができる。
これらの手法は座標とシステムの相互作用力のモデル化において多種多様であるが,初期座標と終端座標の間隔における速度の積分を学習する共通パラダイムを実際に共有していることを示す。
しかし、それらの積分は定数 w.r.t. 時間である。
この観察に触発されて,ニュートン・コート公式を用いた複数の速度推定に基づく統合予測法を提案し,理論的に有効性を証明する。
いくつかのベンチマークでの大規模な実験は、最先端の手法と比較して、一貫性と顕著な改善を実証的に示す。 Reasoning system dynamics is one of the most important analytical approaches for many scientific studies. With the initial state of a system as input, the recent graph neural networks (GNNs)-based methods are capable of predicting the future state distant in time with high accuracy. Although these methods have diverse designs in modeling the coordinates and interacting forces of the system, we show that they actually share a common paradigm that learns the integration of the velocity over the interval between the initial and terminal coordinates. However, their integrand is constant w.r.t. time. Inspired by this observation, we propose a new approach to predict the integration based on several velocity estimations with Newton-Cotes formulas and prove its effectiveness theoretically. Extensive experiments on several benchmarks empirically demonstrate consistent and significant improvement compared with the state-of-the-art methods. | 翻訳日:2023-10-17 01:34:35 公開日:2023-10-13 |
# 跳躍モノポッドの効率的な強化学習 Efficient Reinforcement Learning for Jumping Monopods ( http://arxiv.org/abs/2309.07038v4 ) ライセンス: Link先を確認 | Riccardo Bussola, Michele Focchi, Andrea Del Prete, Daniele Fontanelli, Luigi Palopoli | (参考訳) 本研究では,モノポッドをジャンプで目標に到達させるという複雑な制御問題を考察する。
モノポッドはあらゆる方向にジャンプでき、足の下の地形は不均一である。
これは、より広い種類の問題のテンプレートであり、標準の最適化ベース技術を使って解くのは非常に困難で計算コストが高い。
強化学習(Reinforcement Learning, RL)は興味深い方法かも知れないが、コントローラがすべてをゼロから学ばなければならないエンドツーエンドのアプローチの適用は現実的ではない。
本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。
この迅速性は、学習時間の大幅な削減や、動作を実行する低レベルのコントローラで起こりうるエラーを学習し補償する機能など、幅広い利点をもたらす。
我々は、最適化ベースとエンドツーエンドのrlアプローチの両方に関して、このアプローチの利点を実証する。 In this work, we consider the complex control problem of making a monopod reach a target with a jump. The monopod can jump in any direction and the terrain underneath its foot can be uneven. This is a template of a much larger class of problems, which are extremely challenging and computationally expensive to solve using standard optimisation-based techniques. Reinforcement Learning (RL) could be an interesting alternative, but the application of an end-to-end approach in which the controller must learn everything from scratch, is impractical. The solution advocated in this paper is to guide the learning process within an RL framework by injecting physical knowledge. This expedient brings to widespread benefits, such as a drastic reduction of the learning time, and the ability to learn and compensate for possible errors in the low-level controller executing the motion. We demonstrate the advantage of our approach with respect to both optimization-based and end-to-end RL approaches. | 翻訳日:2023-10-17 01:26:18 公開日:2023-10-13 |
# プランクスケール物理学からの光のスクイーズ Squeezing of light from Planck-scale physics ( http://arxiv.org/abs/2308.13788v3 ) ライセンス: Link先を確認 | Danilo Artigas, Killian Martineau, Jakub Mielczarek | (参考訳) 本稿では,プランクスケール効果による非古典的な光の発生の可能性を検討する。
この目的のために、ハイゼンベルクの不確かさ関係の変形モデルがシングルモードおよびマルチモード光に広く研究されている。
このモデルにより変形した分散関係が導かれ、光子の到着時に進行する。
鍵となる発見は、このモデルが光の状態を絞る振動パターンにもつながることだ。
さらに、振動の振幅はエネルギー固有状態に対して一定であるが、消滅作用素固有値 $\alpha \neq0 $ のコヒーレント状態に対する線形成長を示す。
この2つ目のケースは、天体物理学的な光子にとって重要な、スクイーズと位相空間の変位の蓄積につながる。
特に、$\alpha \sim 1$ の場合、メガパーセク距離で放出される光学スペクトルのコヒーレント光は、オーダーユニティの振幅でスクイージングを得る。
これは、遠い天体物理源に由来する光の非古典的性質の測定が、これらの予測をテストするために窓を開くことを示唆している。 In this article, the possibility of generating non-classical light due to Planck-scale effects is considered. For this purpose, a widely studied model of deformation of the Heisenberg uncertainty relation is applied to single-mode and multi-mode lights. The model leads to a deformed dispersion relation, which manifests in an advancement in the time of arrival of photons. The key finding is that the model also leads to an oscillatory pattern of squeezing of the state of light. Furthermore, while the amplitude of the oscillations is constant for energy eigenstates, it exhibits linear growth over time for coherent states with the annihilation operator eigenvalue $\alpha \neq0 $. This second case leads to the accumulation of squeezing and phase-space displacement, which can be significant for astrophysical photons. In particular, for $\alpha \sim 1$, coherent light in the optical spectrum emitted at megaparsec distances would acquire squeezing with the amplitude of the order unity. This suggests that measurements of the non-classical properties of light originating from distant astrophysical sources may open a window to test these predictions. | 翻訳日:2023-10-17 01:26:02 公開日:2023-10-13 |
# ReLLa:レコメンデーションにおける生涯連続行動理解のための検索強化大言語モデル ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation ( http://arxiv.org/abs/2308.11131v2 ) ライセンス: Link先を確認 | Jianghao Lin, Rong Shan, Chenxu Zhu, Kounianhua Du, Bo Chen, Shigang Quan, Ruiming Tang, Yong Yu, Weinan Zhang | (参考訳) 大規模言語モデル (LLM) が自然言語処理 (NLP) 領域で顕著なブレークスルーを達成しているため、LLM強化レコメンデータシステムは注目され、現在積極的に研究されている。
本稿では,ゼロショットと少数ショットのレコメンデーションタスクに純粋に大きな言語モデルを適用することに焦点を当てる。
まず第一に,提案領域におけるllmsの生涯連続的行動理解問題,すなわち,コンテキストの長さがllmsのコンテキスト制限に達していない場合でも,長いユーザ行動シーケンスのテキスト的文脈から有用な情報を抽出できないことを特定し,定式化する。
このような問題に対処し、LLMのレコメンデーション性能を向上させるために、ゼロショットと少数ショットの両方の設定でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
ゼロショットレコメンデーションのために,テストサンプルのデータ品質を向上させるためにセマンティックユーザ行動検索(SUBR)を実施し,ユーザ行動シーケンスから本質的な知識を抽出することの難しさを大幅に軽減する。
本稿では,サンプルデータ拡張手法としてSUBRを採用することで,検索強化型インストラクションチューニング(ReiT)をさらに設計する。
具体的には,オリジナルデータと検索対象データの両方からなる混合学習データセットを開発した。
本研究では,既存のベースラインモデルと比較してReLLaの優位性を示すために,実世界の3つの公開データセットに対する広範な実験を行った。
強調しておきたいのは、トレーニングサンプルが10%未満であるReLLaは、トレーニングセット全体(DCNv2、DIN、SIMなど)でトレーニングされた従来のCTRモデルよりも優れていることだ。 With large language models (LLMs) achieving remarkable breakthroughs in natural language processing (NLP) domains, LLM-enhanced recommender systems have received much attention and have been actively explored currently. In this paper, we focus on adapting and empowering a pure large language model for zero-shot and few-shot recommendation tasks. First and foremost, we identify and formulate the lifelong sequential behavior incomprehension problem for LLMs in recommendation domains, i.e., LLMs fail to extract useful information from a textual context of long user behavior sequence, even if the length of context is far from reaching the context limitation of LLMs. To address such an issue and improve the recommendation performance of LLMs, we propose a novel framework, namely Retrieval-enhanced Large Language models (ReLLa) for recommendation tasks in both zero-shot and few-shot settings. For zero-shot recommendation, we perform semantic user behavior retrieval (SUBR) to improve the data quality of testing samples, which greatly reduces the difficulty for LLMs to extract the essential knowledge from user behavior sequences. As for few-shot recommendation, we further design retrieval-enhanced instruction tuning (ReiT) by adopting SUBR as a data augmentation technique for training samples. Specifically, we develop a mixed training dataset consisting of both the original data samples and their retrieval-enhanced counterparts. We conduct extensive experiments on three real-world public datasets to demonstrate the superiority of ReLLa compared with existing baseline models, as well as its capability for lifelong sequential behavior comprehension. To be highlighted, with only less than 10% training samples, few-shot ReLLa can outperform traditional CTR models that are trained on the entire training set (e.g., DCNv2, DIN, SIM). | 翻訳日:2023-10-17 01:25:43 公開日:2023-10-13 |
# 2次元のディラックデルタシュロディンガーポテンシャルに対する特異連続 L$^2(\mathbb{R}^2)$境界状態解の特異点スペクトルと固有ベクトル The Exact Point Spectrum and Eigenvector of the Unique Continuous L$^2(\mathbb{R}^2)$ Bound State Solution to the Dirac Delta Schrodinger Potential in Two Dimensions ( http://arxiv.org/abs/2308.05195v2 ) ライセンス: Link先を確認 | Michael Maroun | (参考訳) 2次元と3次元のディラックデルタ関数の点スペクトル、すなわち境界状態エネルギー固有値を分析することは、典型的には正規化や再正規化を伴わずに非常に難しい。
この2次元の理由は2つの折りたたみである。
1) 結合定数は質量とプランク定数と共に単数量を形成する。
これにより、異常な長さのスケールが失われる。
2) 直ちに明らかな l$^2$ の解は原点において発散し、ディラックデルタポテンシャルは測度として重要な支持点を持つ。
ここで示される解の一意性から、線型作用素(すべての$\mathbb{r}^2$ 上の2次元ラプラス作用素)が、ここで構成される特別な領域を持つと、点スペクトルがちょうど1つの要素を持つことが保証される。
この要素は正確に決定され、異常な長さスケールに対する自然な数学的厳密な分解が起こる。
この研究において、任意の種類の再正規化や正規化には関係がない。 Analyzing the point spectrum, i.e. bound state energy eigenvalue, of the Dirac delta function in two and three dimensions is notoriously difficult without recourse to regularization or renormalization, typically both. The reason for this in two dimensions is two fold; 1) the coupling constant, together with the mass and Planck's constant form an unitless quantity. This causes there to be a missing anomalous length scale. 2) The immediately obvious L$^2$ solution is divergent at the origin, where the Dirac Delta potential has its important point of support as a measure. Due to the uniqueness of the solution presented here, it is immediate that the linear operator (the two dimensional Laplace operator on all of $\mathbb{R}^2$), with the specialized domain constructed here, ensures that the point spectrum has exactly one element. This element is determined precisely, and a natural mathematically rigorous resolution to the anomalous length scale arises. In this work, there is no recourse to renormalization or regularization of any kind. | 翻訳日:2023-10-17 01:25:06 公開日:2023-10-13 |
# マルチクラス不整脈分類のための注意機構を備えた局所的グローバル時間融合ネットワーク Local-Global Temporal Fusion Network with an Attention Mechanism for Multiple and Multiclass Arrhythmia Classification ( http://arxiv.org/abs/2308.02416v2 ) ライセンス: Link先を確認 | Yun Kwan Kim, Minji Lee, Kunwook Jo, Hee Seok Song, and Seong-Whan Lee | (参考訳) 心電図(ECGs)から不整脈を検出し分類する際に, 臨床診断支援システム(CDSSs)が心臓科医の意思決定を支援するために広く利用されている。
しかし,不整脈長の異なるため,不整脈分類作業のためのCDSSの作成は困難である。
不整脈の発症時間は異なるが、従来開発された手法ではそのような状態は考慮されていない。
そこで,我々は,その枠組みを提案する。
(i)局所時間情報抽出
(ii)グローバルパターン抽出、及び
3)不整脈検出と入力長の制約による分類を行うため,注意を伴う地域・地域情報融合を行う。
MIT-BIH arrhythmia database (MITDB) とMIT-BIH atrial fibrillation database (AFDB) を用いて, 不整脈の発症と発症と不整脈の持続時間を検出することで, アプローチの10クラスと4クラスの成績を評価した。
その結果,比較モデルで得られた結果よりも統計的に優れていた。
提案手法の一般化能力を確認するため,MITDB上でAFDB訓練モデルを試験し,最先端モデルと比較して優れた性能を得た。
提案手法は,情報損失を発生させることなく,ローカル・グローバル情報やダイナミクスをキャプチャできる。
したがって、不整脈をより正確に認識でき、その発生時間を算出できるので、提案法を用いてより正確な治療計画を作成することができる。 Clinical decision support systems (CDSSs) have been widely utilized to support the decisions made by cardiologists when detecting and classifying arrhythmia from electrocardiograms (ECGs). However, forming a CDSS for the arrhythmia classification task is challenging due to the varying lengths of arrhythmias. Although the onset time of arrhythmia varies, previously developed methods have not considered such conditions. Thus, we propose a framework that consists of (i) local temporal information extraction, (ii) global pattern extraction, and (iii) local-global information fusion with attention to perform arrhythmia detection and classification with a constrained input length. The 10-class and 4-class performances of our approach were assessed by detecting the onset and offset of arrhythmia as an episode and the duration of arrhythmia based on the MIT-BIH arrhythmia database (MITDB) and MIT-BIH atrial fibrillation database (AFDB), respectively. The results were statistically superior to those achieved by the comparison models. To check the generalization ability of the proposed method, an AFDB-trained model was tested on the MITDB, and superior performance was attained compared with that of a state-of-the-art model. The proposed method can capture local-global information and dynamics without incurring information losses. Therefore, arrhythmias can be recognized more accurately, and their occurrence times can be calculated; thus, the clinical field can create more accurate treatment plans by using the proposed method. | 翻訳日:2023-10-17 01:24:46 公開日:2023-10-13 |
# 粒子物理学のための説明可能な同変ニューラルネットワーク:PELICAN Explainable Equivariant Neural Networks for Particle Physics: PELICAN ( http://arxiv.org/abs/2307.16506v2 ) ライセンス: Link先を確認 | Alexander Bogatskiy, Timothy Hoffman, David W. Miller, Jan T. Offermann, Xiaoyang Liu | (参考訳) permutation equivariant and lorentz invariant or covariant aggregator network(ペリカン)は、素粒子物理学問題に適用されるアーキテクチャで見られる共通の制限を克服するために設計された、新しい置換同変および共変アグリゲータネットワークである。
基礎となる物理原理を無視し、非常に多くのパラメータを必要とする非特殊化アーキテクチャを使用する多くのアプローチと比較して、PELICANは、複雑性の低減、解釈可能性の向上、生のパフォーマンスの面でのメリットを示す、根本的に対称なグループベースのアーキテクチャを採用している。
本稿では,ローレンツ型トップクォークのタグ付け(分類)と再構成(回帰)の両面においてPELICANアルゴリズムアーキテクチャを包括的に研究し,ローレンツ型トップクォークの最終状態の密集した環境の中で,$W$ボソンを特定・測定することが困難であることを示す。
また,クォーク開始時とクォーク開始時を識別するタスクへのPELICANの適用も拡張する。
~グルーオン開始ジェットと、ジェットの5つの異なるカテゴリーにまたがるマルチクラス同定。
Lorentz-boosted top-quarkタグの標準的なタスクでテストすると、PELICANは既存の競合製品よりもはるかに低いモデル複雑さと高いサンプル効率で性能を向上する。
4モーメント回帰のより一般的で複雑なタスクでは、PELICANは手作りの非機械学習アルゴリズムよりも優れている。
物理分野における機械学習の幅広い分野における対称性制限アーキテクチャの意義について論じる。 PELICAN is a novel permutation equivariant and Lorentz invariant or covariant aggregator network designed to overcome common limitations found in architectures applied to particle physics problems. Compared to many approaches that use non-specialized architectures that neglect underlying physics principles and require very large numbers of parameters, PELICAN employs a fundamentally symmetry group-based architecture that demonstrates benefits in terms of reduced complexity, increased interpretability, and raw performance. We present a comprehensive study of the PELICAN algorithm architecture in the context of both tagging (classification) and reconstructing (regression) Lorentz-boosted top quarks, including the difficult task of specifically identifying and measuring the $W$-boson inside the dense environment of the Lorentz-boosted top-quark hadronic final state. We also extend the application of PELICAN to the tasks of identifying quark-initiated vs.~gluon-initiated jets, and a multi-class identification across five separate target categories of jets. When tested on the standard task of Lorentz-boosted top-quark tagging, PELICAN outperforms existing competitors with much lower model complexity and high sample efficiency. On the less common and more complex task of 4-momentum regression, PELICAN also outperforms hand-crafted, non-machine learning algorithms. We discuss the implications of symmetry-restricted architectures for the wider field of machine learning for physics. | 翻訳日:2023-10-17 01:24:22 公開日:2023-10-13 |
# 電位時間ステップ不連続における電子散乱 Electron Scattering at a Potential Temporal Step Discontinuity ( http://arxiv.org/abs/2307.08111v2 ) ライセンス: Link先を確認 | Furkan Ok, Amir Bahrami, Christophe Caloz | (参考訳) 我々は時間的段階の不連続性における電子散乱の問題を解く。
シュレーディンガー方程式は、ディラック方程式に代えて、この問題における散乱を説明できないこと、また、破壊ゲージ対称性はベクトルポテンシャル、すなわち、アハラノフ・ボーム型エネルギー遷移のみを引き起こすスカラーポテンシャルを必要とすること、を示す。
後者の後方波は相対論的効果であり、散乱確率は後続的・後向的な性質から導き出され、この問題の空間的ステップと古典的電磁対の比較結果と比較する。 We solve the problem of electron scattering at a potential temporal step discontinuity. We show that the Schrodinger equation cannot account for scattering in this problem, necessitating resort to the Dirac equation, and that breaking gauge symmetry requires a vector potential, a scalar potential inducing only Aharonov-Bohm type energy transitions. We derive the scattering probabilities, of later forward and backward nature, with the later-backward wave being a relativistic effect, and compare the results with those for the spatial step and classical electromagnetic counterparts of the problem. | 翻訳日:2023-10-17 01:23:58 公開日:2023-10-13 |
# タンパク質リガンド系のシミュレーションのための機械学習分子力学力場 Machine-learned molecular mechanics force field for the simulation of protein-ligand systems and beyond ( http://arxiv.org/abs/2307.07085v3 ) ライセンス: Link先を確認 | Kenichiro Takaba, Iv\'an Pulido, Pavan Kumar Behara, Mike Henry, Hugo MacDermott-Opeskin, John D. Chodera, Yuanqing Wang | (参考訳) 分子力学(MM)力場 -- 単純なパラメトリック対数相互作用と原子価相互作用によって分子系のポテンシャルエネルギー面を特徴づける高速で経験的なモデル -- は、伝統的に、離散原子や相互作用タイプに対するルックアップテーブルを用いた、労働集約的で、柔軟性が低く、拡張性の低い離散化学パラメータ割り当て規則に依存してきた。
本稿では,機械学習型MM力場であるespaloma-0.3を導入し,規則に基づく離散原子型タイピング方式を,グラフニューラルネットワークを用いた連続原子表現に置き換える。
Espaloma-0.3は、1.1M以上のエネルギーと力の計算で多種多様な量子化学データセットから直接エンドツーエンドで訓練され、小さな分子、タンパク質、RNAを含む生体分子モデリングの幅広い関心に高い関心を持つ化学空間をカバーしている。
エスパーロマ0.3は、安定な量子化学エネルギー最小ジオメトリを維持しながら、量子化学エネルギーと力を正確に予測する。
タンパク質とリガンドの両方を独立にパラメータ化し、高精度なタンパク質-リガンド結合自由エネルギー予測を生成する。
単一のgpu-dayトレーニングで、大規模な量子化学データセットに新たな力場を適合させることができるこのアプローチは、新しい化学領域に容易に拡張可能な、系統的により正確な力場を構築するための道筋として大きな期待を示せる。
espaloma-0.3力場は、オープンソースのEspalomaパッケージ https://github.com/choderalab/espalomaを通じて直接またはOpenMM内で使用することができる。 Molecular mechanics (MM) force fields -- fast, empirical models characterizing the potential energy surface of molecular systems via simple parametric pairwise and valence interactions -- have traditionally relied on labor-intensive, inflexible, and poorly extensible discrete chemical parameter assignment rules using look-up tables for discrete atom or interaction types. Here, we introduce a machine-learned MM force field, espaloma-0.3, where the rule-based discrete atom-typing schemes are replaced with a continuous atom representations using graph neural networks. Trained in an end-to-end differentiable manner directly from a large, diverse quantum chemical dataset of over 1.1M energy and force calculations, espaloma-0.3 covers chemical spaces highly relevant to the broad interest in biomolecular modeling, including small molecules, proteins, and RNA. We show that espaloma-0.3 accurately predicts quantum chemical energies and forces while maintaining stable quantum chemical energy-minimized geometries. It can self-consistently parameterize both protein and ligand, producing highly accurate protein-ligand binding free energy predictions. Capable of fitting new force fields to large quantum chemical datasets with a single GPU-day of training, this approach demonstrates significant promise as a path forward for building systematically more accurate force fields that can be easily extended to new chemical domains of interest. The espaloma-0.3 force field is available for use directly or within OpenMM via the open-source Espaloma package https://github.com/choderalab/espaloma, and both the code and datasets for constructing this force field are openly available https://github.com/choderalab/refit-espaloma. | 翻訳日:2023-10-17 01:23:47 公開日:2023-10-13 |
# 強化学習による未知環境における被覆経路の学習 Learning Coverage Paths in Unknown Environments with Reinforcement Learning ( http://arxiv.org/abs/2306.16978v2 ) ライセンス: Link先を確認 | Arvi Jonnarth, Jie Zhao, Michael Felsberg | (参考訳) カバレッジパスプランニング(cpp)は、限定されたエリアのフリースペース全体をカバーするパスを見つけるための問題であり、ロボット芝刈りや掃除機、デミングや検索・検索といった応用がある。
オフラインメソッドは確実に完了し、場合によっては既知の環境に最適なパスを見つけることができるが、その価値は、事前に環境が分かっていないオンラインシナリオで制限される。
この場合、環境をマッピングしながら、パスをオンラインで計画する必要があります。
本稿では,この課題に対する強化学習の適当性について検討し,アクション空間,入力特徴表現,ニューラルネットワークアーキテクチャ,報酬関数などのカバレッジパスを効率的に学習するために必要なコンポーネントを分析した。
従来の手法と比較して、このアプローチは柔軟な経路空間を可能にし、エージェントが特定の環境力学に適応できるようにする。
短期的障害物検出に作用する局所感覚入力に加えて,フロンティアに基づく多尺度のエゴセントリックマップの利用を提案する。
これにより、エージェントは計算とメモリの複雑さが実現可能な大規模環境で長期の経路を計画できる。
さらに,非被覆自由空間の小さな穴を残しないようにエージェントを導くための,新しい総変動報酬項を提案する。
提案手法の有効性を検証するため,従来のRL法と高度に専門化された手法の両方の性能を超越して,CPP問題の違いに対する2次元レンジングセンサを用いたシミュレーション実験を行った。 Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While offline methods can find provably complete, and in some cases optimal, paths for known environments, their value is limited in online scenarios where the environment is not known beforehand. In this case, the path needs to be planned online while mapping the environment. We investigate how suitable reinforcement learning is for this challenging problem, and analyze the involved components required to efficiently learn coverage paths, such as action space, input feature representation, neural network architecture, and reward function. Compared to existing classical methods, this approach allows for a flexible path space, and enables the agent to adapt to specific environment dynamics. In addition to local sensory inputs for acting on short-term obstacle detections, we propose to use egocentric maps in multiple scales based on frontiers. This allows the agent to plan a long-term path in large-scale environments with feasible computational and memory complexity. Furthermore, we propose a novel total variation reward term for guiding the agent not to leave small holes of non-covered free space. To validate the effectiveness of our approach, we perform extensive experiments in simulation with a 2D ranging sensor on different variations of the CPP problem, surpassing the performance of both previous RL-based approaches and highly specialized methods. | 翻訳日:2023-10-17 01:23:11 公開日:2023-10-13 |
# SeMLaPS: 潜時事前ネットワークと準平面分割を用いたリアルタイム意味マッピング SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation ( http://arxiv.org/abs/2306.16585v2 ) ライセンス: Link先を確認 | Jingwen Wang, Juan Tarrio, Lourdes Agapito, Pablo F. Alcantarilla, Alexander Vakhitov | (参考訳) リアルタイムセマンティクスの可用性はSLAMシステムの中核的な幾何学的機能を大幅に改善し、多数のロボットおよびAR/VRアプリケーションを可能にする。
本稿では,2次元ニューラルネットワークとSLAMシステムに基づく3次元ネットワークを組み合わせたRGB-Dシーケンスからのリアルタイムセマンティックマッピング手法を提案する。
新しいフレームをセグメント化する際、差別化可能なレンダリングに基づいて、以前のフレームから潜在機能を再投影する。
以前のフレームから現在のフレームで再プロジェクションされた特徴マップを再利用することで、イメージを独立して処理するベースラインに比べて、画像セグメンテーションの品質が大幅に向上する。
3次元マップ処理では,曲面正規度に依存して,同じ意味クラスに属する可能性のある3次元マップ要素をグループ化する幾何学的準平面オーバーセグメンテーション法を提案する。
また,軽量なセマンティックマップ処理のためのニューラルネットワーク設計について述べる。
本システムは,2d-3dネットワークベースのシステムにおいて最先端のセマンティックマッピング品質を実現し,リアルタイム作業中に3つの実屋内データセット上での3次元畳み込みネットワークの性能に適合する。
さらに,3d cnnと比較してセンサ間一般化能力が向上し,異なる深度センサを用いたトレーニングや推論が可能となった。
コードとデータはプロジェクトページで公開される。 http://jingwenwang95.github.io/SeMLaPS The availability of real-time semantics greatly improves the core geometric functionality of SLAM systems, enabling numerous robotic and AR/VR applications. We present a new methodology for real-time semantic mapping from RGB-D sequences that combines a 2D neural network and a 3D network based on a SLAM system with 3D occupancy mapping. When segmenting a new frame we perform latent feature re-projection from previous frames based on differentiable rendering. Fusing re-projected feature maps from previous frames with current-frame features greatly improves image segmentation quality, compared to a baseline that processes images independently. For 3D map processing, we propose a novel geometric quasi-planar over-segmentation method that groups 3D map elements likely to belong to the same semantic classes, relying on surface normals. We also describe a novel neural network design for lightweight semantic map post-processing. Our system achieves state-of-the-art semantic mapping quality within 2D-3D networks-based systems and matches the performance of 3D convolutional networks on three real indoor datasets, while working in real-time. Moreover, it shows better cross-sensor generalization abilities compared to 3D CNNs, enabling training and inference with different depth sensors. Code and data will be released on project page: http://jingwenwang95.github.io/SeMLaPS | 翻訳日:2023-10-17 01:22:46 公開日:2023-10-13 |
# dunkl型微分項による一般化フォッカー・プランク方程式 The Generalized Fokker-Planck Equation in terms of Dunkl-type Derivatives ( http://arxiv.org/abs/2310.05017v2 ) ライセンス: Link先を確認 | R. D. Mota, D. Ojeda-Guill\'en and M. A. Xicot\'encatl | (参考訳) 本研究では、(1+1)次元のフォッカー・プランク方程式の2つの異なる一般化を導入し、空間微分を反射作用素を含む一般化ダンクル型微分に置き換える。
これらの結果の応用として、単純かつシフトした高調波発振器に対する一般化されたフォッカー・プランク方程式を正確に解く。 In this work we introduce two different generalizations of the Fokker-Planck equation in (1+1) dimensions by replacing the spatial derivatives in terms of generalized Dunkl-type derivatives involving reflection operators. As applications of these results, we solve exactly the generalized Fokker-Planck equations for the simple and the shifted harmonic oscillators. | 翻訳日:2023-10-17 01:16:20 公開日:2023-10-13 |
# 六角形スピンネットワークとトポロジカル量子ニューラルネットワークの正確な評価 The exact evaluation of hexagonal spin-networks and topological quantum neural networks ( http://arxiv.org/abs/2310.03632v2 ) ライセンス: Link先を確認 | Matteo Lulli, Antonino Marciano and Emanuele Zappala | (参考訳) スピンネットワーク間の物理的スカラー積は、量子機械学習の文脈で著者が以前に導入した量子ニューラルネットワークであるトポロジカル量子ニューラルネットワーク(TQNN)の理論において、基本的なツールであることが示されている。
しかし、スカラー生成物の効果的評価は、理論の適用可能性のボトルネックである。
本稿では,スピンネットワークとヘキサゴナル形状の間でnouiとperezが定義した物理スカラー積の評価アルゴリズムを提案する。
理論の再結合とハール積分の性質により、効率的なアルゴリズムが得られ、主要なステップに関するいくつかの証明が提供される。
スピンネットワークのある種のクラスにおけるTQNN評価の挙動を古典的および量子的再結合を用いて検討する。
すべての結果は、"idea.deploy"フレームワーク~\href{https://github.com/lullimat/idea.deploy}{\nolinkurl{https://github.com/lullimat/idea.deploy}}を通じて独立に再現できる。 The physical scalar product between spin-networks has been shown to be a fundamental tool in the theory of topological quantum neural networks (TQNN), which are quantum neural networks previously introduced by the authors in the context of quantum machine learning. However, the effective evaluation of the scalar product remains a bottleneck for the applicability of the theory. We introduce an algorithm for the evaluation of the physical scalar product defined by Noui and Perez between spin-network with hexagonal shape. By means of recoupling theory and the properties of the Haar integration we obtain an efficient algorithm, and provide several proofs regarding the main steps. We investigate the behavior of the TQNN evaluations on certain classes of spin-networks with the classical and quantum recoupling. All results can be independently reproduced through the "idea.deploy" framework~\href{https://github.com/lullimat/idea.deploy}{\nolinkurl{https://github.com/lullimat/idea.deploy}} | 翻訳日:2023-10-17 01:16:13 公開日:2023-10-13 |
# 古典的影と対称性による群理論誤差緩和 Group-theoretic error mitigation enabled by classical shadows and symmetries ( http://arxiv.org/abs/2310.03071v2 ) ライセンス: Link先を確認 | Andrew Zhao, Akimasa Miyake | (参考訳) 期待値の推定は多くの量子アルゴリズムにおいて重要なサブルーチンである。
しかし、短期的な実装には2つの大きな課題がある: 観測可能な大量のコレクションを学習するサンプルの数が限られていることと、量子エラー訂正のないデバイスにおけるエラーの蓄積である。
これらの課題を同時に解決するために,量子系に対称性を持つ古典シャドウトモグラフィの群論的構造を統一する量子誤差緩和戦略を開発した。
我々はこのプロトコルを「対称性調整された古典的影」と呼び、既知の対称性がそれらの誤差の下でどのように劣化するかに応じて推定器を調整することによって誤差を緩和する。
具体的な例として、フェルミオンを粒子数として、スピンを全磁化として表わす大域的$\mathrm{u}(1)$ 対称性を挙げ、それぞれの古典シャドープロトコルとの結合を説明する。
我々の主な成果の1つは、最小の仮定に従う読み出し誤差の下で厳密なエラーとサンプリング境界を確立することである。
さらに,より包括的なゲートレベル誤差に対する緩和性能を調べるため,既存の量子プロセッサから派生したノイズモデルを用いて数値実験を行う。
解析的および数値的な結果から,対称性のある古典影は,ユビキタスな対称性の存在下で雑音量子実験の誤差を緩和する柔軟性と低コストの戦略であることが明らかとなった。 Estimating expectation values is a key subroutine in many quantum algorithms. However, near-term implementations face two major challenges: a limited number of samples to learn a large collection of observables, and the accumulation of errors in devices without quantum error correction. To address these challenges simultaneously, we develop a quantum error-mitigation strategy which unifies the group-theoretic structure of classical-shadow tomography with symmetries in quantum systems of interest. We refer to our protocol as "symmetry-adjusted classical shadows," as it mitigates errors by adjusting estimators according to how known symmetries are corrupted under those errors. As a concrete example, we highlight global $\mathrm{U}(1)$ symmetry, which manifests in fermions as particle number and in spins as total magnetization, and illustrate their unification with respective classical-shadow protocols. One of our main results establishes rigorous error and sampling bounds under readout errors obeying minimal assumptions. Furthermore, to probe mitigation capabilities against a more comprehensive class of gate-level errors, we perform numerical experiments with a noise model derived from existing quantum processors. Our analytical and numerical results reveal symmetry-adjusted classical shadows as a flexible and low-cost strategy to mitigate errors from noisy quantum experiments in the ubiquitous presence of symmetry. | 翻訳日:2023-10-17 01:15:54 公開日:2023-10-13 |
# 自己整合多体メトロジー Self-consistent many-body metrology ( http://arxiv.org/abs/2310.02580v2 ) ライセンス: Link先を確認 | Jae-Gyun Baak and Uwe R. Fischer | (参考訳) 本研究では,マルチコンフィグレーション・ハーツリー型の自己整合多体アプローチにより理論的に扱う,相互作用する捕捉ボソンを用いて,古典的・量子的メトロロジーおよびパラメータ推定を行う。
傾いた二重井戸形状に着目して、自在に決定され、観測された2モードのトランケーションと動的に変化する軌道を、フォック空間係数のみが時間的に変化する固定軌道の2モードアプローチと比較する。
その結果,古典的フィッシャー情報や最大確率推定器といった具体的な測定に関連付けられた様々な計量量は,量子進化における軌道の変化に深く影響していることが示された。
相互作用する極低温ガスの量子多体ダイナミクスの自己一貫性は、与えられたメトロロジープロトコルの到達可能なパラメータ推定精度に根本的に影響する。 We investigate performing classical and quantum metrology and parameter estimation by using interacting trapped bosons, which we theoretically treat by a self-consistent many-body approach of the multiconfigurational Hartree type. Focusing on a tilted double-well geometry, we compare a self-consistently determined and monitored two-mode truncation, with dynamically changing orbitals, to the conventional two-mode approach of fixed orbitals, where only Fock space coefficients evolve in time. We demonstrate that, as a consequence, various metrological quantities associated to a concrete measurement such as the classical Fisher information and the maximum likelihood estimator are deeply affected by the orbitals' change during the quantum evolution. Self-consistency of the quantum many-body dynamics of interacting trapped ultracold gases thus fundamentally affects the attainable parameter estimation accuracy of a given metrological protocol. | 翻訳日:2023-10-17 01:15:29 公開日:2023-10-13 |
# decaf: 顔と手との相互作用のための単眼変形キャプチャ Decaf: Monocular Deformation Capture for Face and Hand Interactions ( http://arxiv.org/abs/2309.16670v2 ) ライセンス: Link先を確認 | Soshi Shimada, Vladislav Golyanik, Patrick P\'erez, Christian Theobalt | (参考訳) モノキュラーrgbビデオからの3dトラッキングの既存の方法は、関節と剛体オブジェクトを主に考慮している。
この設定で密集した非剛体物体の変形をモデル化することは、これまでほとんど適応していなかったが、そのような効果は、AR/VRやアバター通信のような下流の応用の現実性を改善することができる。
これは、単眼視の設定と関連する課題の深刻さによるものである。
3Dテンプレートやパラメトリック3Dモデルを用いて、複数の非剛体物体を独立に追跡することは可能であるが、このようなアプローチは、深さのあいまいさ、不自然な物体内衝突、欠落または不明瞭な変形といった結果の3D推定において、複数のアーチファクトに悩まされる。
そこで本研究では、上記の課題に対処し、単一の単眼RGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を初めて紹介する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した顔変形を実感した,新しいハンドフェイスモーション・インタラクションキャプチャデータセットに依存している。
創成における重要なステップとして,再構成した生の3次元形状を位置ベースダイナミクスを用いて処理し,頭部組織の非一様剛性評価へのアプローチを行い,表面変形,面接触領域,頭部位置の可算な注釈を導出する。
私たちの神経アプローチの核心は、顔の深度を事前に供給する変分自動エンコーダと、接触と変形を推定して3Dトラッキングを導くモジュールです。
最後の3D手と顔の再構築は、定量的にも質的にも、我々の設定に適用できるいくつかのベースラインと比較して、現実的でより妥当です。
https://vcai.mpi-inf.mpg.de/projects/Decaf Existing methods for 3D tracking from monocular RGB videos predominantly consider articulated and rigid objects. Modelling dense non-rigid object deformations in this setting remained largely unaddressed so far, although such effects can improve the realism of the downstream applications such as AR/VR and avatar communications. This is due to the severe ill-posedness of the monocular view setting and the associated challenges. While it is possible to naively track multiple non-rigid objects independently using 3D templates or parametric 3D models, such an approach would suffer from multiple artefacts in the resulting 3D estimates such as depth ambiguity, unnatural intra-object collisions and missing or implausible deformations. Hence, this paper introduces the first method that addresses the fundamental challenges depicted above and that allows tracking human hands interacting with human faces in 3D from single monocular RGB videos. We model hands as articulated objects inducing non-rigid face deformations during an active interaction. Our method relies on a new hand-face motion and interaction capture dataset with realistic face deformations acquired with a markerless multi-view camera system. As a pivotal step in its creation, we process the reconstructed raw 3D shapes with position-based dynamics and an approach for non-uniform stiffness estimation of the head tissues, which results in plausible annotations of the surface deformations, hand-face contact regions and head-hand positions. At the core of our neural approach are a variational auto-encoder supplying the hand-face depth prior and modules that guide the 3D tracking by estimating the contacts and the deformations. Our final 3D hand and face reconstructions are realistic and more plausible compared to several baselines applicable in our setting, both quantitatively and qualitatively. https://vcai.mpi-inf.mpg.de/projects/Decaf | 翻訳日:2023-10-17 01:15:16 公開日:2023-10-13 |
# 量子チャネルによる情報とエネルギーの同時伝送について On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v3 ) ライセンス: Link先を確認 | Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok | (参考訳) 送信信号が最小限のエネルギーを同時に持たなければならない場合に、量子チャネルを介して情報を送信できる最適なレートを特徴付ける。
そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。
量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方で共役であり、入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。
これは、計算に正規化公式は必要ないことを意味する。
いくつかの標準チャネルモデルに対して,これらの特性を数値的に示す。
本研究では、ランダム量子状態の性質と大きなヒルベルト空間における集中現象を用いて、無ノイズチャネルの場合の容量-パワー関数の解析式を得る。 The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals. This implies we do not need regularized formulas for calculation. We numerically demonstrate these properties for some standard channel models. We obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states and concentration phenomenon in large Hilbert spaces. | 翻訳日:2023-10-17 01:14:43 公開日:2023-10-13 |
# 不確実性下における在庫管理のためのシミュレーションベースハイブリダイゼーションと自己適応によるアンサンブル微分進化 Ensemble Differential Evolution with Simulation-Based Hybridization and Self-Adaptation for Inventory Management Under Uncertainty ( http://arxiv.org/abs/2309.12852v3 ) ライセンス: Link先を確認 | Sarit Maitra, Vivek Mishra, Sukanya Kundu | (参考訳) 本研究は,インベントリーマネジメント(IM)のためのシミュラオンベースハイブリッド化と自己適応(EDESH-SA)アプローチを用いたアンサンブル微分進化法を提案する。
本研究では,複数回実行したDEとシミュレーションに基づくハイブリダイゼーション手法を組み合わせることで,各イテレーションの成功や失敗に基づいて動的に突然変異や交叉率を変化させる自己適応機構を含む。
適応性のため、このアルゴリズムはIMに存在する複雑さと不確実性を扱うことができる。
モンテカルロシミュレーション(MCS)を用いることで、確率性や様々な需要シナリオを考慮した継続的レビュー(CR)在庫戦略を除外する。
このシミュレーションに基づくアプローチは,IMが直面する課題を現実的に解決する上で,提案するアルゴリズムの適用性を現実的に評価することを可能にする。
実験により,IMの財務性能を向上し,大規模検索空間を最適化する手法の可能性を示す。
本研究は, ackley関数によるパフォーマンステストと摂動による感度解析を用いて, 変数の変化が客観的値に与える影響を検討する。
この分析は、アルゴリズムの振る舞いと堅牢性に関する貴重な洞察を提供する。 This study proposes an Ensemble Differential Evolution with Simula-tion-Based Hybridization and Self-Adaptation (EDESH-SA) approach for inven-tory management (IM) under uncertainty. In this study, DE with multiple runs is combined with a simulation-based hybridization method that includes a self-adaptive mechanism that dynamically alters mutation and crossover rates based on the success or failure of each iteration. Due to its adaptability, the algorithm is able to handle the complexity and uncertainty present in IM. Utilizing Monte Carlo Simulation (MCS), the continuous review (CR) inventory strategy is ex-amined while accounting for stochasticity and various demand scenarios. This simulation-based approach enables a realistic assessment of the proposed algo-rithm's applicability in resolving the challenges faced by IM in practical settings. The empirical findings demonstrate the potential of the proposed method to im-prove the financial performance of IM and optimize large search spaces. The study makes use of performance testing with the Ackley function and Sensitivity Analysis with Perturbations to investigate how changes in variables affect the objective value. This analysis provides valuable insights into the behavior and robustness of the algorithm. | 翻訳日:2023-10-17 01:14:30 公開日:2023-10-13 |
# 人間とAIの相互作用と社会的落とし穴 Human-AI Interactions and Societal Pitfalls ( http://arxiv.org/abs/2309.10448v2 ) ライセンス: Link先を確認 | Francisco Castro, Jian Gao, S\'ebastien Martin | (参考訳) 生成人工知能(AI)を利用すると、ユーザーは生産性が向上するかもしれないが、AI生成コンテンツは好みと正確に一致しないかもしれない。
この効果を研究するために、異種ユーザがAIと共有する情報の量を選択し、出力忠実度と通信コストのトレードオフに直面したベイズフレームワークを導入する。
これらの個人レベルの決定とAIトレーニングの相互作用が社会的な課題を引き起こす可能性があることを示す。
AIが生成したコンテンツに基づいてトレーニングされている場合、アウトプットはより均質化される。
あらゆるaiバイアスが社会バイアスになるかもしれません
均質化とバイアス問題の解決策は、生産性を犠牲にすることなく、パーソナライズされたアウトプットを可能にする、人間とAIのインタラクションを改善することである。 When working with generative artificial intelligence (AI), users may see productivity gains, but the AI-generated content may not match their preferences exactly. To study this effect, we introduce a Bayesian framework in which heterogeneous users choose how much information to share with the AI, facing a trade-off between output fidelity and communication cost. We show that the interplay between these individual-level decisions and AI training may lead to societal challenges. Outputs may become more homogenized, especially when the AI is trained on AI-generated content. And any AI bias may become societal bias. A solution to the homogenization and bias issues is to improve human-AI interactions, enabling personalized outputs without sacrificing productivity. | 翻訳日:2023-10-17 01:14:07 公開日:2023-10-13 |
# DIT4BEARがスマートロードインターンシップを開始 DIT4BEARs Smart Roads Internship ( http://arxiv.org/abs/2107.06755v2 ) ライセンス: Link先を確認 | Md Abrar Jahin and Andrii Krutsylo | (参考訳) uit(ノルウェー北極大学)の研究インターンシップは、私たちのチームが'smart roads - winter road maintenance 2021'ハッカソンの勝者になるために提供されました。
インターンシップは2021年5月3日に始まり、2021年5月21日に終了した。
国籍や学歴が異なるにも関わらず、インターンはチームとして可能な限り協力しようとしました。
このプロジェクトでもっとも順調な部分は、北極圏の人々が直面している重要な状況に気付きました。
状態を分類するためのディープラーニングモデル(乾燥,湿潤,湿潤,氷,雪,スラッシュ)を開発し,実装した。
天気予報アプリは、最良のモデルに基づいて、Ta、Turf、Height、Speed、Water等を考慮に入れた状態を予測する。
重要な部分は、摩擦に基づく事故率と状態に基づく事故率の積である安全基準を定義することであった。
我々は,センサデータから得られた分類器の状態と摩擦に応じて,安全度を予測できる回帰器を開発した。
パス探索アルゴリズムは、センサーデータ、オープンストリートマップデータ、気象データを用いて設計されている。 The research internship at UiT - The Arctic University of Norway was offered for our team being the winner of the 'Smart Roads - Winter Road Maintenance 2021' Hackathon. The internship commenced on 3 May 2021 and ended on 21 May 2021 with meetings happening twice each week. In spite of having different nationalities and educational backgrounds, we both interns tried to collaborate as a team as much as possible. The most alluring part was working on this project made us realize the critical conditions faced by the arctic people, where it was hard to gain such a unique experience from our residence. We developed and implemented several deep learning models to classify the states (dry, moist, wet, icy, snowy, slushy). Depending upon the best model, the weather forecast app will predict the state taking the Ta, Tsurf, Height, Speed, Water, etc. into consideration. The crucial part was to define a safety metric which is the product of the accident rates based on friction and the accident rates based on states. We developed a regressor that will predict the safety metric depending upon the state obtained from the classifier and the friction obtained from the sensor data. A pathfinding algorithm has been designed using the sensor data, open street map data, weather data. | 翻訳日:2023-10-16 18:44:40 公開日:2023-10-13 |
# speedlimit: 量子化トランスフォーマーモデルのニューラルネットワークによる探索 SpeedLimit: Neural Architecture Search for Quantized Transformer Models ( http://arxiv.org/abs/2209.12127v3 ) ライセンス: Link先を確認 | Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko, David Brooks, Gu-Yeon Wei, H. T. Kung | (参考訳) トランスフォーマモデルの分野での研究は、主に精度や複雑度などのパフォーマンス指標の向上に重点を置いているが、業界における実用的な応用には、推論レイテンシの制約を厳格に考慮する必要があることが多い。
この課題に対処し,上限レイテンシ制約に固執しながら精度を最適化する新しいニューラルネットワーク探索(nas)手法であるspeedlimitを導入する。
本手法は8ビット整数量子化を検索プロセスに組み込んで,現在の最先端技術に勝る手法である。
以上の結果から,性能とレイテンシの最適なバランスを求めるための実現可能性と有効性について考察した。 While research in the field of transformer models has primarily focused on enhancing performance metrics such as accuracy and perplexity, practical applications in industry often necessitate a rigorous consideration of inference latency constraints. Addressing this challenge, we introduce SpeedLimit, a novel Neural Architecture Search (NAS) technique that optimizes accuracy whilst adhering to an upper-bound latency constraint. Our method incorporates 8-bit integer quantization in the search process to outperform the current state-of-the-art technique. Our results underline the feasibility and efficacy of seeking an optimal balance between performance and latency, providing new avenues for deploying state-of-the-art transformer models in latency-sensitive environments. | 翻訳日:2023-10-16 18:38:38 公開日:2023-10-13 |
# DataPerf: データ中心AI開発のためのベンチマーク DataPerf: Benchmarks for Data-Centric AI Development ( http://arxiv.org/abs/2207.10062v4 ) ライセンス: Link先を確認 | Mark Mazumder, Colby Banbury, Xiaozhe Yao, Bojan Karla\v{s}, William Gaviria Rojas, Sudnya Diamos, Greg Diamos, Lynn He, Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Douwe Kiela, David Jurado, David Kanter, Rafael Mosquera, Juan Ciro, Lora Aroyo, Bilge Acun, Lingjiao Chen, Mehul Smriti Raje, Max Bartolo, Sabri Eyuboglu, Amirata Ghorbani, Emmett Goodman, Oana Inel, Tariq Kane, Christine R. Kirkpatrick, Tzu-Sheng Kuo, Jonas Mueller, Tristan Thrush, Joaquin Vanschoren, Margaret Warren, Adina Williams, Serena Yeung, Newsha Ardalani, Praveen Paritosh, Lilith Bat-Leah, Ce Zhang, James Zou, Carole-Jean Wu, Cody Coleman, Andrew Ng, Peter Mattson, Vijay Janapa Reddi | (参考訳) 機械学習の研究は長い間、データセットではなくモデルにフォーカスしており、基礎となる問題の広さ、難易度、忠実性に関わらず、一般的なmlタスクに注目すべきデータセットが使用されている。
データの基本的な重要性を無視することは、現実世界のアプリケーションにおいて不正確さ、バイアス、フレジビリティを生じさせ、既存のデータセットベンチマーク間の飽和によって研究が妨げられている。
MLデータセットとデータ中心アルゴリズムを評価するための,コミュニティ主導のベンチマークスイートであるDataPerfを紹介する。
コンペティション、コンパラビリティ、再現性を通じて、データ中心のAIのイノベーションを促進することを目指している。
私たちは、MLコミュニティが単にアーキテクチャではなくデータセットを反復できるようにし、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
dataperfの最初のイテレーションには、ビジョン、スピーチ、獲得、デバッグ、拡散促進において、幅広いデータ中心の技術、タスク、モダリティをカバーする5つのベンチマークが含まれており、コミュニティからの新たなコントリビュートベンチマークのホスティングをサポートする。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースで、MLCommons AssociationはDataPerfを維持して、学術と産業の長期的な利益を保証する。 Machine learning research has long focused on models rather than datasets, and prominent datasets are used for common ML tasks without regard to the breadth, difficulty, and faithfulness of the underlying problems. Neglecting the fundamental importance of data has given rise to inaccuracy, bias, and fragility in real-world applications, and research is hindered by saturation across existing dataset benchmarks. In response, we present DataPerf, a community-led benchmark suite for evaluating ML datasets and data-centric algorithms. We aim to foster innovation in data-centric AI through competition, comparability, and reproducibility. We enable the ML community to iterate on datasets, instead of just architectures, and we provide an open, online platform with multiple rounds of challenges to support this iterative development. The first iteration of DataPerf contains five benchmarks covering a wide spectrum of data-centric techniques, tasks, and modalities in vision, speech, acquisition, debugging, and diffusion prompting, and we support hosting new contributed benchmarks from the community. The benchmarks, online evaluation platform, and baseline implementations are open source, and the MLCommons Association will maintain DataPerf to ensure long-term benefits to academia and industry. | 翻訳日:2023-10-16 18:37:56 公開日:2023-10-13 |
# 擬似不変予測器の学習 Learning Counterfactually Invariant Predictors ( http://arxiv.org/abs/2207.09768v3 ) ライセンス: Link先を確認 | Francesco Quinzan, Cecilia Casolo, Krikamol Muandet, Yucen Luo, Niki Kilbertus | (参考訳) 反現実的不変性(CI)の表記は、現実の世界において公平で堅牢で一般化可能な予測者にとって不可欠であることが証明されている。
本稿では,観測分布における条件独立性の観点から,予測器が反実的に不変となるための十分な条件を与えるグラフィカルな基準を提案する。
このような予測を学習するために,Hilbert-Schmidt条件独立基準(HSCIC)に基づくCIP(Counterfactual Invariant Prediction)と呼ばれる,カーネルベースの条件依存尺度を提案する。
実験により,スカラーおよび多変量設定を含む実世界の各種データセットに対して,CIPによる逆実測的不変性を強制する効果が示された。 Notions of counterfactual invariance (CI) have proven essential for predictors that are fair, robust, and generalizable in the real world. We propose graphical criteria that yield a sufficient condition for a predictor to be counterfactually invariant in terms of a conditional independence in the observational distribution. In order to learn such predictors, we propose a model-agnostic framework, called Counterfactually Invariant Prediction (CIP), building on the Hilbert-Schmidt Conditional Independence Criterion (HSCIC), a kernel-based conditional dependence measure. Our experimental results demonstrate the effectiveness of CIP in enforcing counterfactual invariance across various simulated and real-world datasets including scalar and multi-variate settings. | 翻訳日:2023-10-16 18:37:36 公開日:2023-10-13 |
# ZSON:マルチモーダルゴール埋め込みを用いたゼロショット目標ナビゲーション ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings ( http://arxiv.org/abs/2206.12403v2 ) ライセンス: Link先を確認 | Arjun Majumdar, Gunjan Aggarwal, Bhavika Devnani, Judy Hoffman, Dhruv Batra | (参考訳) 我々は、オープンワールドのオブジェクトゴールナビゲーション(ObjectNav)を学ぶためのスケーラブルなアプローチを提示します -- 仮想ロボット(エージェント)に、探索されていない環境でオブジェクトのインスタンス(例:"find a sink")を見つけるように要求するタスクです。
このアプローチは完全にゼロショットです -- つまり、ObjectNavの報酬やデモは一切必要ありません。
代わりに、image-goal navigation (imagenav)タスクをトレーニングし、エージェントが画像(すなわち目標画像)がキャプチャされた場所を見つける。
具体的には、目標画像をマルチモーダルなセマンティック埋め込み空間にエンコードし、アノテーションのない3D環境(例えばHM3D)で意味ゴールナビゲーション(SemanticNav)エージェントを大規模に訓練できるようにする。
トレーニング後、SemanticNavエージェントは、言語目標を同じマルチモーダルでセマンティックな埋め込み空間に投影することで、自由形式の自然言語(例えば「シンク」や「バスルームシンク」など)で記述されたオブジェクトを見つけるように指示することができる。
その結果,オープンワールドのObjectNavが実現できた。
我々は,3つのObjectNavデータセット(Gibson,HM3D,MP3D)上でエージェントを広範囲に評価し,既存のゼロショット法よりも4.2%~20.0%の絶対的な改善を観察した。
参考までに、これらの利益は、habitat 2020と2021年のobjectnavチャレンジの勝者の間の5%の改善に匹敵する。
オープンワールドの環境では、我々のエージェントが明示的に述べた部屋(例えば「キッチンシンクを探す」)と、対象の部屋が推測できるとき(例えば「シンクとストーブを探す」)と組み合わせて命令を一般化できることを発見します。 We present a scalable approach for learning open-world object-goal navigation (ObjectNav) -- the task of asking a virtual robot (agent) to find any instance of an object in an unexplored environment (e.g., "find a sink"). Our approach is entirely zero-shot -- i.e., it does not require ObjectNav rewards or demonstrations of any kind. Instead, we train on the image-goal navigation (ImageNav) task, in which agents find the location where a picture (i.e., goal image) was captured. Specifically, we encode goal images into a multimodal, semantic embedding space to enable training semantic-goal navigation (SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D). After training, SemanticNav agents can be instructed to find objects described in free-form natural language (e.g., "sink", "bathroom sink", etc.) by projecting language goals into the same multimodal, semantic embedding space. As a result, our approach enables open-world ObjectNav. We extensively evaluate our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe absolute improvements in success of 4.2% - 20.0% over existing zero-shot methods. For reference, these gains are similar or better than the 5% improvement in success between the Habitat 2020 and 2021 ObjectNav challenge winners. In an open-world setting, we discover that our agents can generalize to compound instructions with a room explicitly mentioned (e.g., "Find a kitchen sink") and when the target room can be inferred (e.g., "Find a sink and a stove"). | 翻訳日:2023-10-16 18:37:21 公開日:2023-10-13 |
# 質問すべきこと:会話調査におけるフォローアップ質問生成のための知識駆動的アプローチ What should I Ask: A Knowledge-driven Approach for Follow-up Questions Generation in Conversational Surveys ( http://arxiv.org/abs/2205.10977v2 ) ライセンス: Link先を確認 | Yubin Ge, Ziang Xiao, Jana Diesner, Heng Ji, Karrie Karahalios, Hari Sundaram | (参考訳) フォローアップ質問をオンザフライで生成することで、よりダイナミックでパーソナライズされた調査構造を可能にすることで、会話型の調査品質とユーザエクスペリエンスが大幅に向上する。
本稿では,会話調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
対話履歴とラベル付き知識を対話型サーベイの文脈で記述した,人間による追記質問の新しいデータセットを構築した。
データセットとともに、参照フリーのgriceanにインスパイアされた評価メトリクスを設計、検証し、生成したフォローアップ質問の品質を体系的に評価した。
次に,知識を用いて生成過程を制御し,情報的かつコヒーレントなフォローアップ質問を生成する2段階の知識駆動モデルを提案する。
実験の結果、GPTベースのベースラインモデルと比較して、我々の2段階モデルはより情報的で一貫性があり、明確なフォローアップ質問を生成することがわかった。 Generating follow-up questions on the fly could significantly improve conversational survey quality and user experiences by enabling a more dynamic and personalized survey structure. In this paper, we proposed a novel task for knowledge-driven follow-up question generation in conversational surveys. We constructed a new human-annotated dataset of human-written follow-up questions with dialogue history and labeled knowledge in the context of conversational surveys. Along with the dataset, we designed and validated a set of reference-free Gricean-inspired evaluation metrics to systematically evaluate the quality of generated follow-up questions. We then propose a two-staged knowledge-driven model for the task, which generates informative and coherent follow-up questions by using knowledge to steer the generation process. The experiments demonstrate that compared to GPT-based baseline models, our two-staged model generates more informative, coherent, and clear follow-up questions. | 翻訳日:2023-10-16 18:36:48 公開日:2023-10-13 |
# パス絡み合った単一光子からのマルチビット量子乱数生成 Multi-bit quantum random number generator from path-entangled single photons ( http://arxiv.org/abs/2202.10933v2 ) ライセンス: Link先を確認 | K. Muhammed Shafi, Prateek Chawla, Abhaya S. Hegde, R. S. Gayatri, A. Padhye, and C. M. Chandrashekar | (参考訳) 量子系の測定結果は固有のランダム性を示し、基本的に非決定論的である。
これにより量子物理学は、暗号、統計シミュレーション、他の様々な分野における非決定論的振る舞いのモデリングといった分野において、真のランダム性の生成のための新しい標準を設定することができる。
本稿では、パス絡み合った単一光子を用いた多ビット乱数生成のためのスキームを提案する。
このプロトコルは、本質的なランダム性を失うことなく、乱数をサンプリングする分布を設計できる。
実験では,自然パラメトリックダウンコンバージョン(SPDC)を用いて生成した単一光子を用いて,経路に沿って複数ビットのコミットメントを割り当てる。
1ビットと2ビットの乱数は、経路基底の絡み合い状態の測定から生成される。
ランダム性に対するNISTテストのパスに加えて,Crauser, Horne, Shimony, Holt (CHSH) の不等式違反を用いた量子乱数生成器(QRNG)の量子性証明と自己証明を実証する。
パス絡み合い状態は、一致数によって制限されたヘラルド単光子や絡み合い光子スキームと比較して高いビットレートを生成することができる。
このスキームは、1つの光子から複数のビットを生成する複数の経路に沿って光子の分布を伴い、1つの検出器のデッドタイム検出によって課される制限を回避する。
単一光子検出器が約28mpsで飽和すると、約80Mbpsの高速を発生させることでこれを実証する。 Measurement outcomes on quantum systems exhibit inherent randomness and are fundamentally nondeterministic. This has enabled quantum physics to set new standards for the generation of true randomness with significant applications in the fields of cryptography, statistical simulations, and modeling of the nondeterministic behavior in various other fields. In this work, we present a scheme for the generation of multi-bit random numbers using path-entangled single photons. Without losing their intrinsic randomness, the protocol allows us to engineer the distribution from which we sample random numbers. For the experimental demonstration, we use single photons generated using spontaneous parametric down-conversion (SPDC), and assign a multi-bit commitment along the path. One-bit and two-bit random numbers are then generated from measuring entangled states in the path basis. In addition to passing the NIST tests for randomness, we also demonstrate the certification of quantumness and self-certification of quantum random number generator (QRNG) using Clauser, Horne, Shimony and Holt (CHSH) inequality violation. The path-entangled states can generate higher bitrates compared to heralded single photon or entangled photon schemes which are limited by the coincidence counts. The scheme involves distribution of photons along multiple paths resulting in multiple bits from one photon and avoids the limitation imposed by the detection dead time of one detector. We demonstrate this by generating a high rate of about 80 Mbps when the single photon detector saturates at around 28 Mcps. | 翻訳日:2023-10-16 18:36:34 公開日:2023-10-13 |
# 構造化予測問題アーカイブ Structured Prediction Problem Archive ( http://arxiv.org/abs/2202.03574v4 ) ライセンス: Link先を確認 | Paul Swoboda, Ahmed Abbas, Florian Bernard, Andrea Hornakova, Paul Roetzer, Bogdan Savchynskyy | (参考訳) 構造化予測問題は、機械学習の基本的なツールの1つである。
数値解のアルゴリズム開発を容易にするために,多数のデータセットを多種多様な問題クラスに対して読みやすい形式で一箇所に集める。
データセットへのアーカイブリンク、考慮された問題と問題フォーマットの説明、サイズ、インスタンス数などの問題特性の簡単な要約を提供する。
参考までに、論文で提案されているアルゴリズムの非排他的選択も提案する。
この中央リポジトリによって、確立した作業に対するベンチマークや比較がより簡単になることを期待しています。
アーカイブに含まれる興味深い新しいデータセットとアルゴリズムの提出を歓迎します。 Structured prediction problems are one of the fundamental tools in machine learning. In order to facilitate algorithm development for their numerical solution, we collect in one place a large number of datasets in easy to read formats for a diverse set of problem classes. We provide archival links to datasets, description of the considered problems and problem formats, and a short summary of problem characteristics including size, number of instances etc. For reference we also give a non-exhaustive selection of algorithms proposed in the literature for their solution. We hope that this central repository will make benchmarking and comparison to established works easier. We welcome submission of interesting new datasets and algorithms for inclusion in our archive. | 翻訳日:2023-10-16 18:36:08 公開日:2023-10-13 |
# 3D顔モフィング攻撃:生成、脆弱性、検出 3D Face Morphing Attacks: Generation, Vulnerability and Detection ( http://arxiv.org/abs/2201.03454v3 ) ライセンス: Link先を確認 | Jag Mohan Singh, Raghavendra Ramachandra | (参考訳) 顔認識システム (FRS) は, 顔画像にコントリビュータデータからの顔画像が混ざり合うことにより, 形態形成攻撃に対して脆弱であることが判明した。
本研究は,3dで顔形成攻撃を発生させる新しい方向を示す。
そこで本稿では, コントリビュータデータに対応する3次元顔点雲をブレンドする手法を提案する。
提案手法は,入力された3次元顔点雲を深度マップと2次元カラー画像に投影し,次いでカラー画像と深度マップに独立して行う画像ブレンディングとラップ操作により3次元顔形態を生成する。
次に、標準(固定)ビューを使用して、2次元モーフィングカラーマップと深度マップをポイントクラウドにバックプロジェクションしました。
生成した3d顔モーフィングモデルが単一の正準ビューのために穴をあけることを考慮し,高品質な3d顔モーフィングモデルを実現するための新しいホール充填アルゴリズムを提案する。
新たに生成した3d顔データセットは,41個のユニークなデータ対象に対応する675個の3dスキャンと,100個のデータ対象を持つ公開データベース(facescape)からなる。
自動2次元, 3次元frs, ヒトオブザーバ解析に対する3次元モーフジェネレーションの脆弱性をベンチマークするために実験を行った。
また,8つの異なる品質指標を用いて生成した3次元顔形態モデルの品質を定量的に評価した。
最後に、3つの異なる3次元顔モフィング攻撃検出(3D-MAD)アルゴリズムを提案し、3次元顔モフィング攻撃検出技術の性能をベンチマークする。 Face Recognition systems (FRS) have been found to be vulnerable to morphing attacks, where the morphed face image is generated by blending the face images from contributory data subjects. This work presents a novel direction for generating face-morphing attacks in 3D. To this extent, we introduced a novel approach based on blending 3D face point clouds corresponding to contributory data subjects. The proposed method generates 3D face morphing by projecting the input 3D face point clouds onto depth maps and 2D color images, followed by image blending and wrapping operations performed independently on the color images and depth maps. We then back-projected the 2D morphing color map and the depth map to the point cloud using the canonical (fixed) view. Given that the generated 3D face morphing models will result in holes owing to a single canonical view, we have proposed a new algorithm for hole filling that will result in a high-quality 3D face morphing model. Extensive experiments were conducted on the newly generated 3D face dataset comprising 675 3D scans corresponding to 41 unique data subjects and a publicly available database (Facescape) with 100 data subjects. Experiments were performed to benchmark the vulnerability of the {proposed 3D morph-generation scheme against} automatic 2D, 3D FRS, and human observer analysis. We also presented a quantitative assessment of the quality of the generated 3D face-morphing models using eight different quality metrics. Finally, we propose three different 3D face Morphing Attack Detection (3D-MAD) algorithms to benchmark the performance of 3D face morphing attack detection techniques. | 翻訳日:2023-10-16 18:35:59 公開日:2023-10-13 |
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v7 ) ライセンス: Link先を確認 | Shenghan Su and Lin Gu and Yue Yang and Zenghui Zhang and Tatsuya Harada | (参考訳) カラーナミングシステムが効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語から40年分のダイアクロニックデータを分析することを含む、より多くの言語研究によって支持されている。
これは、ハイレベルな認識性能で表現される通信効率を最適化することで、機械学習が進化し、類似のカラーナミングシステムを見つけることができるかどうかを探求するきっかけとなる。
そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。
rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体の中で適切な色を見つけるためにキーポイント検出手段を利用する。
色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。
興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。
また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。
広範にわたる実験により,極端に低ビットレート色で,画像からネットワークアクティベーションまでの量に量子化ネットワークに統合できる可能性が示された。
ソースコードはhttps://github.com/ryeocthiv/CQFormerで入手できる。 The long-standing theory that a colour-naming system evolves under dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies, including analysing four decades of diachronic data from the Nafaanra language. This inspires us to explore whether machine learning could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette; meanwhile the Palette Branch utilises a key-point detection way to find proper colours in the palette among the whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours, showing potential to integrate into quantisation network to quantities from image to network activation. The source code is available at https://github.com/ryeocthiv/CQFormer | 翻訳日:2023-10-16 18:29:16 公開日:2023-10-13 |
# 量子最適化のためのパリティ制約の低深さ回路実装 Low-depth Circuit Implementation of Parity Constraints for Quantum Optimization ( http://arxiv.org/abs/2211.11287v2 ) ライセンス: Link先を確認 | Josua Unger, Anette Messinger, Benjamin E. Niehoff, Michael Fellner, Wolfgang Lechner | (参考訳) パリティ写像を用いたQAOAにおいて,3体および4体のパウリ-Z積演算子をプラケット形状の制約の形で実装し,ゲート数と深さの低い回路の構成を提案する。
回路は、正方格子上に最も近接した接続を持つ任意の量子デバイスに実装でき、一度に1つのゲートタイプと2つのキュービットゲートの1つの方向だけを使用する。
システムサイズに依存しない回路深さの上限を求める。
この手順は、同時に実行されるゲート間の必要最小限の空間距離や、全てのキュービットのサブセット(例えば1行)内でのみ同時に実行可能であるゲートなど、ハードウェア固有の制約に対して容易に調整可能である。 We present a construction for circuits with low gate count and depth, implementing three- and four-body Pauli-Z product operators as they appear in the form of plaquette-shaped constraints in QAOA when using the parity mapping. The circuits can be implemented on any quantum device with nearest-neighbor connectivity on a square-lattice, using only one gate type and one orientation of two-qubit gates at a time. We find an upper bound for the circuit depth which is independent of the system size. The procedure is readily adjustable to hardware-specific restrictions, such as a minimum required spatial distance between simultaneously executed gates, or gates only being simultaneously executable within a subset of all the qubits, for example a single line. | 翻訳日:2023-10-16 18:28:51 公開日:2023-10-13 |
# ディリクレ分布に基づくエビデンスからの学習による不確実性認識 Uncertainty-aware Gait Recognition via Learning from Dirichlet Distribution-based Evidence ( http://arxiv.org/abs/2211.08007v2 ) ライセンス: Link先を確認 | Beibei Lin, Chen Liu, Ming Wang, Lincheng Li, Shunli Zhang, Robby T. Tan, and Xin Yu | (参考訳) 既存の歩行認識フレームワークは、プローブサンプルとギャラリー内のアイデンティティ間の距離に基づいて、ギャラリー内のアイデンティティを検索する。
しかし、既存の手法では、ギャラリーがプローブに対応するidを含まないことを無視することが多く、アラームを鳴らすよりも認識エラーを生じさせる。
本稿では,学習した証拠に基づいて識別の不確かさをモデル化する新しい不確実性認識手法を提案する。
具体的には,我々の認識モデルをエビデンスコレクタとして扱い,入力サンプルからエビデンスを収集し,エビデンス上のディリクレ分布をパラメータ化する。
ディリクレ分布は本質的に、入力サンプルに割り当てられた確率の密度を表す。
この分布を用いて,各プローブ試料の結果の不確かさを評価し,各プローブがギャラリー内に存在するかどうかを判定する。
我々の知る限り、我々の手法は不確実性モデリングによる歩行認識に取り組む最初の試みである。
さらに、不確実なモデリングは、アウト・オブ・ディストリビューション(OOD)クエリに対するロバスト性を大幅に改善する。
広範な実験により,oodクエリを用いたデータセットの最先端性能を実現し,他のアイデンティティリトライタスクにも一般化できることが証明された。
OODクエリレートがOUMVLPの約50%である場合,本手法は最先端の51.26%で性能が向上する。 Existing gait recognition frameworks retrieve an identity in the gallery based on the distance between a probe sample and the identities in the gallery. However, existing methods often neglect that the gallery may not contain identities corresponding to the probes, leading to recognition errors rather than raising an alarm. In this paper, we introduce a novel uncertainty-aware gait recognition method that models the uncertainty of identification based on learned evidence. Specifically, we treat our recognition model as an evidence collector to gather evidence from input samples and parameterize a Dirichlet distribution over the evidence. The Dirichlet distribution essentially represents the density of the probability assigned to the input samples. We utilize the distribution to evaluate the resultant uncertainty of each probe sample and then determine whether a probe has a counterpart in the gallery or not. To the best of our knowledge, our method is the first attempt to tackle gait recognition with uncertainty modelling. Moreover, our uncertain modeling significantly improves the robustness against out-of-distribution (OOD) queries. Extensive experiments demonstrate that our method achieves state-of-the-art performance on datasets with OOD queries, and can also generalize well to other identity-retrieval tasks. Importantly, our method outperforms the state-of-the-art by a large margin of 51.26% when the OOD query rate is around 50% on OUMVLP. | 翻訳日:2023-10-16 18:28:36 公開日:2023-10-13 |
# NAPG:ハイブリッド質問応答のための非自己回帰型プログラム生成 NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering ( http://arxiv.org/abs/2211.03462v2 ) ライセンス: Link先を確認 | Tengxun Zhang, Hongfei Xu, Josef van Genabith, Deyi Xiong, Hongying Zan | (参考訳) ハイブリッド表文質問応答(QA)は異種情報からの推論を必要とし、推論のタイプは主に数値的推論とスパン抽出に分けられる。
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードし、各デコードステップは演算子またはオペランドを生成する。
しかし、ステップバイステップの復号は露光バイアスに苦しめられ、エラー伝搬により復号が展開するにつれてプログラム生成の精度が急激に低下する。
本稿では,演算子とオペランドの両方を含む完全プログラムタプルを独立に生成し,プログラム生成の高速化を図りつつ,エラー伝搬問題に対処する非自己回帰型プログラム生成フレームワークを提案する。
ConvFinQAとMultiHierttデータセットの実験によると、我々の非自己回帰型プログラム生成手法は、強力なFinQANet(+5.06 Exe Accおよび+4.80 Prog Accポイント)とMT2Net(+7.97 EMおよび+6.38 F1ポイント)のベースラインよりも大幅に改善され、プログラム生成においてはるかに高速な(21x)。
最後に,数値推論ステップの増加に伴い,本手法の性能低下はベースラインよりも著しく小さくなった。
私たちのコードはまもなく公開されます。 Hybrid tabular-textual question answering (QA) requires reasoning from heterogeneous information, and the types of reasoning are mainly divided into numerical reasoning and span extraction. Current numerical reasoning methods autoregressively decode program sequences, and each decoding step produces either an operator or an operand. However, the step-by-step decoding suffers from exposure bias, and the accuracy of program generation drops sharply as the decoding steps unfold due to error propagation. In this paper, we propose a non-autoregressive program generation framework, which independently generates complete program tuples containing both operators and operands, can address the error propagation issue while significantly boosting the speed of program generation. Experiments on the ConvFinQA and MultiHiertt datasets show that our non-autoregressive program generation method can bring about substantial improvements over the strong FinQANet (+5.06 Exe Acc and +4.80 Prog Acc points) and MT2Net (+7.97 EM and +6.38 F1 points) baselines, establishing the new state-of-the-art performance, while being much faster (21x) in program generation. Finally, with increasing numbers of numerical reasoning steps the performance drop of our method is significantly smaller than that of the baselines. Our code will be publicly available soon. | 翻訳日:2023-10-16 18:28:14 公開日:2023-10-13 |
# ソフトプロンプトの検索による命令追従モデルのゼロショット性能の効率向上 Efficiently Enhancing Zero-Shot Performance of Instruction Following Model via Retrieval of Soft Prompt ( http://arxiv.org/abs/2210.03029v3 ) ライセンス: Link先を確認 | Seonghyeon Ye, Joel Jang, Doyoung Kim, Yongrae Jo, Minjoon Seo | (参考訳) 命令追従モデルのゼロショット性能を向上させるには、トレーニングデータセットの総数やモデルサイズをスケールすることで、重い計算が必要となる。
本研究では,ゼロショットタスクの一般化において,プロンプトチューニングによって得られるソフトプロンプトの検索を効率的に支援する方法を検討する。
具体的には、プロンプトチューニングを通じて各プロンプトのソフトプロンプト組込みをトレーニングし、プロンプト組込みでマップされたトレーニングインスタンスのサンプルを格納し、推論中にクエリインスタンスに最も近いトレーニングインスタンスの対応するプロンプト組込みを取得する。
0.007%の追加パラメータしか加えていないが、ソフトプロンプトの検索は、未確認タスクにおけるT0のパフォーマンスを11つのデータセットのうち10で上回り、BIG-benchベンチマークにおけるT0の平均精度を2.39%向上させる。
また、類似した回答選択フォーマットでトレーニングされたソース埋め込みの検索が、類似したタスクタイプよりも重要であるという興味深い発見を報告する。 Enhancing the zero-shot performance of instruction-following models requires heavy computation, either by scaling the total number of training datasets or the model size. In this work, we explore how retrieval of soft prompts obtained through prompt tuning can efficiently assist hard prompts in zero-shot task generalization. Specifically, we train soft prompt embeddings for each prompt through prompt tuning, store the samples of the training instances mapped with the prompt embeddings, and retrieve the corresponding prompt embedding of the training instance closest to the query instance during inference. While only adding 0.007% additional parameters, retrieval of soft prompt enhances the performance of T0 on unseen tasks by outperforming it on 10 out of 11 datasets as well as improving the mean accuracy of T0 on BIG-bench benchmark by 2.39% points. Also, we report an interesting finding that retrieving source embeddings trained on similar answer choice formats is more important than those on similar task types. | 翻訳日:2023-10-16 18:26:47 公開日:2023-10-13 |
# 動的ソーシャルネットワークにおけるコミュニティ追跡のためのモジュラリティに基づくアプローチ Modularity-based approach for tracking communities in dynamic social networks ( http://arxiv.org/abs/2302.12759v2 ) ライセンス: Link先を確認 | Michele Mazza, Guglielmo Cola, Maurizio Tesconi | (参考訳) コミュニティ検出は、オンラインソーシャルネットワークの複雑なダイナミクスを解明するための重要なタスクである。
これらのネットワークの出現は、ユーザー間の相互作用の量と速度を劇的に増加させ、研究者が社会社会の構造を調査し分析する前例のない機会を与えている。
実世界のソーシャルネットワークにおけるユーザーのグループの進化を追跡することへの関心は高まっているが、コミュニティ検出の取り組みの焦点は静的ネットワーク内のコミュニティである。
本稿では,コミュニティ毎に重要なイベントが連続して特定される動的ネットワークにおいて,時間とともにコミュニティを追跡する新しいフレームワークを提案する。
当社のフレームワークはモジュール性ベースの戦略を採用しており,事前定義されたしきい値を必要としないため,動的コミュニティのより正確で堅牢な追跡が可能になる。
組込みイベントを含む合成ネットワークの広範な実験により,本フレームワークの有効性を検証した。
その結果,我々のフレームワークは最先端の手法よりも優れていることがわかった。
さらに,提案手法を,2020年を通じて6万人以上のユーザと500万のツイートからなるtwitterネットワーク上で活用し,実世界シナリオにおける動的コミュニティ同定の可能性を示した。
提案するフレームワークは,異なるソーシャルネットワークに適用可能であり,動的ソーシャルネットワークにおけるコミュニティの進化に関する深い洞察を得るための貴重なツールを提供する。 Community detection is a crucial task to unravel the intricate dynamics of online social networks. The emergence of these networks has dramatically increased the volume and speed of interactions among users, presenting researchers with unprecedented opportunities to explore and analyze the underlying structure of social communities. Despite a growing interest in tracking the evolution of groups of users in real-world social networks, the predominant focus of community detection efforts has been on communities within static networks. In this paper, we introduce a novel framework for tracking communities over time in a dynamic network, where a series of significant events is identified for each community. Our framework adopts a modularity-based strategy and does not require a predefined threshold, leading to a more accurate and robust tracking of dynamic communities. We validated the efficacy of our framework through extensive experiments on synthetic networks featuring embedded events. The results indicate that our framework can outperform the state-of-the-art methods. Furthermore, we utilized the proposed approach on a Twitter network comprising over 60,000 users and 5 million tweets throughout 2020, showcasing its potential in identifying dynamic communities in real-world scenarios. The proposed framework can be applied to different social networks and provides a valuable tool to gain deeper insights into the evolution of communities in dynamic social networks. | 翻訳日:2023-10-16 18:18:11 公開日:2023-10-13 |
# 時系列スペクトルを用いたグラフARMAプロセスの学習 Learning Graph ARMA Processes from Time-Vertex Spectra ( http://arxiv.org/abs/2302.06887v3 ) ライセンス: Link先を確認 | Eylem Tugce Guneyi, Berkay Yaldiz, Abdullah Canbolat, Elif Vural | (参考訳) 静止時間頂点確率過程としての時間変化グラフ信号のモデリングにより、異なるグラフノードと時刻瞬間間のプロセスの相関パターンを効率的に利用することにより、行方不明信号値の推測が可能となる。
本研究では,信号補間処理の不完全な実現から,プロセスの結合時間-頂点パワースペクトル密度を学習したグラフ自己回帰移動平均(グラフARMA)プロセスの計算アルゴリズムを提案する。
我々の解は、まず部分的に観測された実現からプロセスのジョイントスペクトルを大まかに推定し、凸緩和を通じてグラフARMAプロセスのスペクトル多様体に投影することでこの推定を精算する。
当初欠けていた信号値は学習モデルに基づいて推定される。
実験の結果,提案手法は時間-頂点信号推定問題において高い精度が得られることがわかった。 The modeling of time-varying graph signals as stationary time-vertex stochastic processes permits the inference of missing signal values by efficiently employing the correlation patterns of the process across different graph nodes and time instants. In this study, we propose an algorithm for computing graph autoregressive moving average (graph ARMA) processes based on learning the joint time-vertex power spectral density of the process from its incomplete realizations for the task of signal interpolation. Our solution relies on first roughly estimating the joint spectrum of the process from partially observed realizations and then refining this estimate by projecting it onto the spectrum manifold of the graph ARMA process through convex relaxations. The initially missing signal values are then estimated based on the learnt model. Experimental results show that the proposed approach achieves high accuracy in time-vertex signal estimation problems. | 翻訳日:2023-10-16 18:17:51 公開日:2023-10-13 |
# 合成データ生成のための機械学習: レビュー Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v5 ) ライセンス: Link先を確認 | Yingzhou Lu, Minjie Shen, Huazheng Wang, Capucine van Rechem, Wenqi Wei | (参考訳) 機械学習はデータに大きく依存するが、現実のアプリケーションは様々なデータ関連の問題に直面することが多い。
これには、品質の低いデータ、マシンラーニングモデルの適合性の低いデータポイント、プライバシや安全性、規制に関する懸念によるデータアクセスの困難などが含まれる。
これらの課題に照らして、合成データ生成の概念は、現実世界のデータが容易にならない方法でデータ共有と利用を可能にする、有望な代替手段として浮上する。
本稿では,合成データ生成のために機械学習モデルを用いた既存研究の総合的な体系的レビューを行う。
このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まり、様々な視点を包含している。
さらに、ニューラルネットワークアーキテクチャと深層生成モデルを重視した、さまざまな機械学習手法を探求する。
また、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じる。
さらに,本研究では,この新興分野における課題と機会を明らかにし,今後の研究の道筋を明かす。
本稿では,合成データ生成の複雑さを解明し,知識の進歩に寄与し,合成データ生成のさらなる探求を促すことを目的とする。 Machine learning heavily relies on data, but real-world applications often encounter various data-related issues. These include data of poor quality, insufficient data points leading to under-fitting of machine learning models, and difficulties in data access due to concerns surrounding privacy, safety, and regulations. In light of these challenges, the concept of synthetic data generation emerges as a promising alternative that allows for data sharing and utilization in ways that real-world data cannot facilitate. This paper presents a comprehensive systematic review of existing studies that employ machine learning models for the purpose of generating synthetic data. The review encompasses various perspectives, starting with the applications of synthetic data generation, spanning computer vision, speech, natural language processing, healthcare, and business domains. Additionally, it explores different machine learning methods, with particular emphasis on neural network architectures and deep generative models. The paper also addresses the crucial aspects of privacy and fairness concerns related to synthetic data generation. Furthermore, this study identifies the challenges and opportunities prevalent in this emerging field, shedding light on the potential avenues for future research. By delving into the intricacies of synthetic data generation, this paper aims to contribute to the advancement of knowledge and inspire further exploration in synthetic data generation. | 翻訳日:2023-10-16 18:17:09 公開日:2023-10-13 |
# ライフタイム予測のための操作プロファイルのアライメントによるドメイン適応 Domain Adaptation via Alignment of Operation Profile for Remaining Useful Lifetime Prediction ( http://arxiv.org/abs/2302.01704v2 ) ライセンス: Link先を確認 | Ismail Nejjar, Fabian Geissmann, Mengjie Zhao, Cees Taal, Olga Fink | (参考訳) 効果的な予後・健康管理(PHM)は、残留実用生命(RUL)の正確な予測に依存している。
データ駆動RUL予測技術は、利用可能な時間対障害軌道の表現性に大きく依存する。
したがって、これらの方法は、訓練されたものとは異なる運用条件に従う艦隊の新しい部隊のデータに適用された場合、うまく機能しない可能性がある。
これはドメインシフトとも呼ばれる。
ドメイン適応(DA)メソッドは、ドメイン不変の特徴を抽出することによって、ドメインシフト問題に対処することを目的としている。
しかし、DA法は定常状態や過渡位相のような動作の異なる位相を区別しない。
これにより、異なる操作フェーズの過小評価や過剰表現による誤調整が発生する。
本稿では,操作プロファイルの異なる位相を別々に検討した,対向領域適応フレームワークに基づくRUL予測のための2つの新しいDA手法を提案する。
提案手法は、ソースドメイン内の操作プロファイルの各フェーズの限界分布を、ターゲットドメイン内の各フェーズと整合させる。
提案手法の有効性は,3つの異なる飛行クラス(ショート,ミディアム,ロング)の1つで動作するターボファンエンジンのサブフレットを別々のドメインとして扱う,n-cmapss(commercial modular aero-propulsion system)データセットを用いて評価した。
実験の結果,提案手法は現状のda法に比べ,rul予測の精度が向上することがわかった。 Effective Prognostics and Health Management (PHM) relies on accurate prediction of the Remaining Useful Life (RUL). Data-driven RUL prediction techniques rely heavily on the representativeness of the available time-to-failure trajectories. Therefore, these methods may not perform well when applied to data from new units of a fleet that follow different operating conditions than those they were trained on. This is also known as domain shifts. Domain adaptation (DA) methods aim to address the domain shift problem by extracting domain invariant features. However, DA methods do not distinguish between the different phases of operation, such as steady states or transient phases. This can result in misalignment due to under- or over-representation of different operation phases. This paper proposes two novel DA approaches for RUL prediction based on an adversarial domain adaptation framework that considers the different phases of the operation profiles separately. The proposed methodologies align the marginal distributions of each phase of the operation profile in the source domain with its counterpart in the target domain. The effectiveness of the proposed methods is evaluated using the New Commercial Modular Aero-Propulsion System (N-CMAPSS) dataset, where sub-fleets of turbofan engines operating in one of the three different flight classes (short, medium, and long) are treated as separate domains. The experimental results show that the proposed methods improve the accuracy of RUL predictions compared to current state-of-the-art DA methods. | 翻訳日:2023-10-16 18:16:50 公開日:2023-10-13 |
# OTJR: 対向ロバストネスに対する最適ジャコビアン正規化 OTJR: Optimal Transport Meets Optimal Jacobian Regularization for Adversarial Robustness ( http://arxiv.org/abs/2303.11793v2 ) ライセンス: Link先を確認 | Binh M. Le, Shahroz Tariq, Simon S. Woo | (参考訳) 多様なコンテンツのリッチな媒体としてのwebは、その脆弱性を悪用する悪意のあるエンティティの脅威に常にさらされている。
このような脆弱性の1つは、Webコンテンツの忠実さと完全性に不可欠なもので、深いニューラルネットワークが敵対的な摂動、特に画像に関して、Web上の支配的な形式のデータに対する感受性がある。
近年の分類器の堅牢性向上に鑑み,2つの重要な防御手段である対人訓練(AT)とヤコビ正規化の複雑さを深く掘り下げる。
この2つのアプローチを理論的にも経験的にも慎重に分析し、それぞれのアプローチが分類器のロバストな学習にどのように影響するかを実証します。
次に, 入力出力ジャコビアン正則化をat に結合し, 最適輸送理論を活用し, ジャコビアン正則化法(-\systemname)を用いた新しい最適輸送法を提案する。
特にsliced wasserstein (sw) 距離を用いることで,データセット内のクラス数に関わらず,逆のサンプル表現をクリーンなサンプルの表現に効率的に近づけることができる。
SW距離は、反対サンプルの運動方向を与えるが、これはヤコビアン正則化にとってより情報的かつ強力である。
実験的な評価では,AutoAttack 測定値の下での ~\CIFAR-10 で 51.41\%, ~\CIFAR-100 で 28.49\% の補正精度を達成できた。
実世界のデモでは、インターネットから引き起こされた画像をオンラインの敵攻撃に適用し、洗練されたWeb画像の摂動を防御する上で、我々のモデルの有効性と妥当性を強化する。 The Web, as a rich medium of diverse content, has been constantly under the threat of malicious entities exploiting its vulnerabilities, especially with the rapid proliferation of deep learning applications in various web services. One such vulnerability, crucial to the fidelity and integrity of web content, is the susceptibility of deep neural networks to adversarial perturbations, especially concerning images - a dominant form of data on the web. In light of the recent advancements in the robustness of classifiers, we delve deep into the intricacies of adversarial training (AT) and Jacobian regularization, two pivotal defenses. Our work {is the} first carefully analyzes and characterizes these two schools of approaches, both theoretically and empirically, to demonstrate how each approach impacts the robust learning of a classifier. Next, we propose our novel Optimal Transport with Jacobian regularization method, dubbed~\SystemName, jointly incorporating the input-output Jacobian regularization into the AT by leveraging the optimal transport theory. In particular, we employ the Sliced Wasserstein (SW) distance that can efficiently push the adversarial samples' representations closer to those of clean samples, regardless of the number of classes within the dataset. The SW distance provides the adversarial samples' movement directions, which are much more informative and powerful for the Jacobian regularization. Our empirical evaluations set a new standard in the domain, with our method achieving commendable accuracies of 51.41\% on the ~\CIFAR-10 and 28.49\% on the ~\CIFAR-100 datasets under the AutoAttack metric. In a real-world demonstration, we subject images sourced from the Internet to online adversarial attacks, reinforcing the efficacy and relevance of our model in defending against sophisticated web-image perturbations. | 翻訳日:2023-10-16 18:09:47 公開日:2023-10-13 |
# videofusion:高品質ビデオ生成のための分解拡散モデル VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation ( http://arxiv.org/abs/2303.08320v4 ) ライセンス: Link先を確認 | Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan | (参考訳) データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。
最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。
従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。
各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。
さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。 A diffusion probabilistic model (DPM), which constructs a forward diffusion process by gradually adding noise to data points and learns the reverse denoising process to generate new samples, has been shown to handle complex data distribution. Despite its recent success in image synthesis, applying DPMs to video generation is still challenging due to high-dimensional data spaces. Previous methods usually adopt a standard diffusion process, where frames in the same video clip are destroyed with independent noises, ignoring the content redundancy and temporal correlation. This work presents a decomposed diffusion process via resolving the per-frame noise into a base noise that is shared among all frames and a residual noise that varies along the time axis. The denoising pipeline employs two jointly-learned networks to match the noise decomposition accordingly. Experiments on various datasets confirm that our approach, termed as VideoFusion, surpasses both GAN-based and diffusion-based alternatives in high-quality video generation. We further show that our decomposed formulation can benefit from pre-trained image diffusion models and well-support text-conditioned video creation. | 翻訳日:2023-10-16 18:08:49 公開日:2023-10-13 |
# Lifelong-MonoDepth:マルチドメイン単分子距離推定のための生涯学習 Lifelong-MonoDepth: Lifelong Learning for Multi-Domain Monocular Metric Depth Estimation ( http://arxiv.org/abs/2303.05050v3 ) ライセンス: Link先を確認 | Junjie Hu, Chenyou Fan, Liguang Zhou, Qing Gao, Honghai Liu, Tin Lun Lam | (参考訳) 自動運転とロボットナビゲーションの急速な進歩により、メートル法(絶対的)の深さを推定できる生涯学習モデルの需要が高まっている。
生涯学習のアプローチは、モデルトレーニング、データストレージ、収集といった面で大きなコスト削減をもたらす可能性がある。
しかし、RGB画像と深度マップの品質はセンサ依存であり、現実世界の深度マップはドメイン固有の特徴を示し、深度範囲のバリエーションをもたらす。
これらの課題は、ドメインギャップの小さい生涯学習シナリオと相対深度マップ推定に制限される。
生涯にわたるメートル法深度学習を促進するために、注意を要する3つの重要な技術的課題を特定します。
一 スケール認識深度学習により深度スケールの変動に対処できるモデルを開発すること。
二 重要な領域ギャップに対処する効果的な学習戦略を考案し、
三 実用分野におけるドメイン認識深層推論の自動化ソリューションの作成。
上記の考察に基づき,本論文で提示する。
一 深さ規模の不均衡に効果的に取り組む軽量の多頭フレームワーク
二 重要なドメイン間隙を適切に処理する不確実性に気を配る生涯学習ソリューション
三 リアルタイム推論のためのオンラインドメイン固有予測者選択方法
その結果,提案手法は高い効率,安定性,可塑性を達成でき,ベンチマークを8%から15%に向上させることができた。 With the rapid advancements in autonomous driving and robot navigation, there is a growing demand for lifelong learning models capable of estimating metric (absolute) depth. Lifelong learning approaches potentially offer significant cost savings in terms of model training, data storage, and collection. However, the quality of RGB images and depth maps is sensor-dependent, and depth maps in the real world exhibit domain-specific characteristics, leading to variations in depth ranges. These challenges limit existing methods to lifelong learning scenarios with small domain gaps and relative depth map estimation. To facilitate lifelong metric depth learning, we identify three crucial technical challenges that require attention: i) developing a model capable of addressing the depth scale variation through scale-aware depth learning, ii) devising an effective learning strategy to handle significant domain gaps, and iii) creating an automated solution for domain-aware depth inference in practical applications. Based on the aforementioned considerations, in this paper, we present i) a lightweight multi-head framework that effectively tackles the depth scale imbalance, ii) an uncertainty-aware lifelong learning solution that adeptly handles significant domain gaps, and iii) an online domain-specific predictor selection method for real-time inference. Through extensive numerical studies, we show that the proposed method can achieve good efficiency, stability, and plasticity, leading the benchmarks by 8% to 15%. | 翻訳日:2023-10-16 18:07:13 公開日:2023-10-13 |
# ChatGPTは人格を評価できるのか?
総合評価フレームワーク Can ChatGPT Assess Human Personalities? A General Evaluation Framework ( http://arxiv.org/abs/2303.01248v3 ) ライセンス: Link先を確認 | Haocong Rao, Cyril Leung, Chunyan Miao | (参考訳) 大規模言語モデル(LLM)、特にChatGPTは、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに解明されていない。
既存の研究は、LLMの仮想的個性を研究するが、LLMを通して人間の個性を分析する可能性を調べることは滅多にない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
具体的には,MBTI質問のオプションをランダムに変更することで,偏りのないプロンプトを考案し,平均的なテスト結果を採用して,より公平な回答生成を促す。
次に,質問文の主題を置き換え,llmの異なる課題に対する柔軟な質問と評価を可能にすることを提案する。
最後に,LLMがより明確な応答を生成できるように,質問文を精度評価の方法で再フォーマットする。
提案フレームワークにより,LLMは異なるグループの個人性を柔軟に評価することができる。
さらに,ChatGPT や GPT-4 を含む最先端 LLM による評価結果の整合性,堅牢性,公平性を評価するための3つの評価指標を提案する。
実験の結果,ChatGPTの人格評価能力は,InstructGPTと比較すると,迅速なバイアスに対するロバスト性は低いものの,より一貫性があり,公平な評価が可能であることが示された。 Large Language Models (LLMs) especially ChatGPT have produced impressive results in various areas, but their potential human-like psychology is still largely unexplored. Existing works study the virtual personalities of LLMs but rarely explore the possibility of analyzing human personalities via LLMs. This paper presents a generic evaluation framework for LLMs to assess human personalities based on Myers Briggs Type Indicator (MBTI) tests. Specifically, we first devise unbiased prompts by randomly permuting options in MBTI questions and adopt the average testing result to encourage more impartial answer generation. Then, we propose to replace the subject in question statements to enable flexible queries and assessments on different subjects from LLMs. Finally, we re-formulate the question instructions in a manner of correctness evaluation to facilitate LLMs to generate clearer responses. The proposed framework enables LLMs to flexibly assess personalities of different groups of people. We further propose three evaluation metrics to measure the consistency, robustness, and fairness of assessment results from state-of-the-art LLMs including ChatGPT and GPT-4. Our experiments reveal ChatGPT's ability to assess human personalities, and the average results demonstrate that it can achieve more consistent and fairer assessments in spite of lower robustness against prompt biases compared with InstructGPT. | 翻訳日:2023-10-16 18:06:56 公開日:2023-10-13 |
# udapdr: rerankers の llm プロンプトと蒸留による非教師なしドメイン適応 UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers ( http://arxiv.org/abs/2303.00807v3 ) ライセンス: Link先を確認 | Jon Saad-Falcon, Omar Khattab, Keshav Santhanam, Radu Florian, Martin Franz, Salim Roukos, Avirup Sil, Md Arafat Sultan, Christopher Potts | (参考訳) 多くの情報検索タスクは、微調整のために大きなラベル付きデータセットを必要とする。
しかし、そのようなデータセットは、しばしば利用不能であり、実際のアプリケーション用のユーティリティは、ドメインシフトによって急速に減少する可能性がある。
この課題に対処するために,大規模言語モデル(LLM)を用いて大量の合成クエリを安価に生成する手法を開発し,動機づける。
この方法は、高価なLLMを使用して少数の合成クエリを生成することから始まる。
その後、非常に安価なものが大量の合成クエリの作成に使われ、リランクモデルのファミリーを微調整するのに使用される。
これらのリランカーは、ターゲットドメインで使用する単一の効率的なレトリバーに蒸留される。
本手法は,ロングテール領域におけるゼロショット精度を向上し,標準再ランキング法よりも大幅に低いレイテンシを実現することを示す。 Many information retrieval tasks require large labeled datasets for fine-tuning. However, such datasets are often unavailable, and their utility for real-world applications can diminish quickly due to domain shifts. To address this challenge, we develop and motivate a method for using large language models (LLMs) to generate large numbers of synthetic queries cheaply. The method begins by generating a small number of synthetic queries using an expensive LLM. After that, a much less expensive one is used to create large numbers of synthetic queries, which are used to fine-tune a family of reranker models. These rerankers are then distilled into a single efficient retriever for use in the target domain. We show that this technique boosts zero-shot accuracy in long-tail domains and achieves substantially lower latency than standard reranking methods. | 翻訳日:2023-10-16 18:06:32 公開日:2023-10-13 |
# Orca:中国語の会話機械を読むためのベンチマーク Orca: A Few-shot Benchmark for Chinese Conversational Machine Reading Comprehension ( http://arxiv.org/abs/2302.13619v2 ) ライセンス: Link先を確認 | Nuo Chen, Hongguang Li, Junqing He, Yinan Bao, Xinshi Lin, Qi Yang, Jianfeng Liu, Ruyi Gan, Jiaxing Zhang, Baoyuan Wang, Jia Li | (参考訳) 会話機械読解(CMRC)課題は,近年ホットな研究課題となっている会話における質問に答えることを目的としている。
しかし、各会話が静的パスに割り当てられる既存のCMRCベンチマークは、実際のシナリオと矛盾しない。
したがって、実際のシナリオに対するモデルの理解能力を評価するのは難しい。
この目的のために,中国初のcmrcベンチマークorcaを提案し,多種多様なドメインに対するモデルの一般化能力を評価するためのゼロショット/フェーショット設定も提供する。
831のホットトピック駆動会話を合計4,742回収集した。
会話の各ターンには応答関連通路が割り当てられ、モデルの理解能力をより合理的に評価することを目的としている。
会話のトピックはソーシャルメディアプラットフォームから収集され、33のドメインをカバーする。
重要なのは、orcaの回答はすべて、以前のデータセットの特定のスパンや短いフレーズではなく、よくアノテーションされた自然な応答です。
さらに、Orcaの課題に取り組むために、3つの強力なベースラインを実装しています。
その結果,CMRCベンチマークの課題が示唆された。
datatsetとcheckpointsはhttps://github.com/nuochenpku/orcaで利用できます。 The conversational machine reading comprehension (CMRC) task aims to answer questions in conversations, which has been a hot research topic in recent years because of its wide applications. However, existing CMRC benchmarks in which each conversation is assigned a static passage are inconsistent with real scenarios. Thus, model's comprehension ability towards real scenarios are hard to evaluate reasonably. To this end, we propose the first Chinese CMRC benchmark Orca and further provide zero-shot/few-shot settings to evaluate model's generalization ability towards diverse domains. We collect 831 hot-topic driven conversations with 4,742 turns in total. Each turn of a conversation is assigned with a response-related passage, aiming to evaluate model's comprehension ability more reasonably. The topics of conversations are collected from social media platform and cover 33 domains, trying to be consistent with real scenarios. Importantly, answers in Orca are all well-annotated natural responses rather than the specific spans or short phrase in previous datasets. Besides, we implement three strong baselines to tackle the challenge in Orca. The results indicate the great challenge of our CMRC benchmark. Our datatset and checkpoints are available at https://github.com/nuochenpku/Orca. | 翻訳日:2023-10-16 18:05:40 公開日:2023-10-13 |
# ニューラルネットワークのトレーニングに十分である1つの前向き方法 One Forward is Enough for Neural Network Training via Likelihood Ratio Method ( http://arxiv.org/abs/2305.08960v2 ) ライセンス: Link先を確認 | Jinyang Jiang, Zeliang Zhang, Chenliang Xu, Zhaofei Yu, Yijie Peng | (参考訳) バックプロパゲーション(BP)は、ニューラルネットワークトレーニングにおける勾配計算の主流のアプローチであるが、分化の連鎖規則に依存しているため、ネットワークアーキテクチャやトレーニングパイプラインの設計柔軟性が制限される。
BPにおける再帰計算を回避し,1つの前方伝播を用いた勾配推定のための統一的等比 (ULR) 法を開発した。
ULRは、様々なニューラルネットワークアーキテクチャをトレーニングするために拡張できるだけでなく、BPの計算フローをULRによって再構成して、デバイス適応を改善することもできる。
さらに, 学習プロセスをさらに加速するために, 分散低減手法をいくつか提案する。
実験は,ニューラルネットワークのトレーニングシナリオ,計算フローの再構成,事前学習モデルの微調整など,さまざまな面で数値的結果を提供する。
これらの結果から,ulrは,グローバル目標を損なうことなく局所化モジュールトレーニングを許可することにより,ニューラルネットワークトレーニングの柔軟性を効果的に向上し,ネットワークロバスト性を大幅に向上させることが示された。 While backpropagation (BP) is the mainstream approach for gradient computation in neural network training, its heavy reliance on the chain rule of differentiation constrains the designing flexibility of network architecture and training pipelines. We avoid the recursive computation in BP and develop a unified likelihood ratio (ULR) method for gradient estimation with just one forward propagation. Not only can ULR be extended to train a wide variety of neural network architectures, but the computation flow in BP can also be rearranged by ULR for better device adaptation. Moreover, we propose several variance reduction techniques to further accelerate the training process. Our experiments offer numerical results across diverse aspects, including various neural network training scenarios, computation flow rearrangement, and fine-tuning of pre-trained models. All findings demonstrate that ULR effectively enhances the flexibility of neural network training by permitting localized module training without compromising the global objective and significantly boosts the network robustness. | 翻訳日:2023-10-16 17:57:29 公開日:2023-10-13 |
# 発話の因果判別を促進する方法--感情的推論を事例として How to Enhance Causal Discrimination of Utterances: A Case on Affective Reasoning ( http://arxiv.org/abs/2305.02615v2 ) ライセンス: Link先を確認 | Hang Chen and Jing Luo and Xinyu Yang and Wenjing Zhu | (参考訳) Affective Reasoning in Conversation (ARC)タスクに関する調査は、因果差別の課題を浮き彫りにしている。
大言語モデル(llm)を含む既存のモデルのほとんどは、発話埋め込み内の意味的相関を捉えるのに優れているが、特定の因果関係を決定するのに不足している。
この制限を克服するため、会話プロセスに「textit{i.d.}」ノイズ項を組み込むことを提案し、構造因果モデル(SCM)を構築する。
これは、組込みの異なる因果関係が独立な条件を通じてどのように識別できるかを探求する。
ディープラーニングの実装を容易にするため,非構造化会話データを扱うためのcognフレームワークを導入し,非可観測ノイズを学習可能な「単純な原因」とみなすオートエンコーダアーキテクチャを採用した。
さらに、ノイズを含む合成データセットをキュレートする。
総合的な実験を通して,本手法の有効性と解釈可能性を検証する。
私たちのコードはhttps://github.com/Zodiark-ch/mater-of-our-EMNLP2023-paperで公開しています。 Our investigation into the Affective Reasoning in Conversation (ARC) task highlights the challenge of causal discrimination. Almost all existing models, including large language models (LLMs), excel at capturing semantic correlations within utterance embeddings but fall short in determining the specific causal relationships. To overcome this limitation, we propose the incorporation of \textit{i.i.d.} noise terms into the conversation process, thereby constructing a structural causal model (SCM). It explores how distinct causal relationships of fitted embeddings can be discerned through independent conditions. To facilitate the implementation of deep learning, we introduce the cogn frameworks to handle unstructured conversation data, and employ an autoencoder architecture to regard the unobservable noise as learnable "implicit causes." Moreover, we curate a synthetic dataset that includes i.i.d. noise. Through comprehensive experiments, we validate the effectiveness and interpretability of our approach. Our code is available in https://github.com/Zodiark-ch/mater-of-our-EMNLP2023-paper. | 翻訳日:2023-10-16 17:57:12 公開日:2023-10-13 |
# samrs: segment anythingモデルによるリモートセンシングセグメンテーションデータセットのスケールアップ SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model ( http://arxiv.org/abs/2305.02034v4 ) ライセンス: Link先を確認 | Di Wang, Jing Zhang, Bo Du, Minqiang Xu, Lin Liu, Dacheng Tao and Liangpei Zhang | (参考訳) Segment Anything Model(SAM)の成功は、データ中心の機械学習の重要性を示している。
しかし、リモートセンシング(rs)画像に注釈を付けることに伴う困難とコストのため、貴重なrsデータは、特にピクセルレベルではラベルが付かないままである。
本研究では,samと既存のrsオブジェクト検出データセットを活用して,大規模rsセグメンテーションデータセットを生成する効率的なパイプラインを開発する。
SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。
セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出に使用できるオブジェクトカテゴリ、場所、およびインスタンス情報を提供する。
また,様々な側面からSAMRSを包括的に分析する。
さらに、予備実験では、タスクの相違に対処するためにsamlによるセグメント化事前トレーニングを行い、微調整中の限られたトレーニングデータによって生じる制限を緩和することの重要性を強調する。
コードとデータセットはhttps://github.com/ViTAE-Transformer/SAMRS.comから入手できる。 The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS totally possesses 105,090 images and 1,668,241 instances, surpassing existing high-resolution RS segmentation datasets in size by several orders of magnitude. It provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. Moreover, preliminary experiments highlight the importance of conducting segmentation pre-training with SAMRS to address task discrepancies and alleviate the limitations posed by limited training data during fine-tuning. The code and dataset will be available at https://github.com/ViTAE-Transformer/SAMRS. | 翻訳日:2023-10-16 17:56:55 公開日:2023-10-13 |
# ピクセルを超えて:輝度と色予測のための光量調整hdrデータセット Beyond the Pixel: a Photometrically Calibrated HDR Dataset for Luminance and Color Prediction ( http://arxiv.org/abs/2304.12372v3 ) ライセンス: Link先を確認 | Christophe Bolduc, Justine Giroux, Marc H\'ebert, Claude Demers, and Jean-Fran\c{c}ois Lalonde | (参考訳) 光は人間の幸福に重要な役割を果たす。
しかし、ほとんどのコンピュータビジョンタスクは物理的輝度との関係を考慮せずにピクセルを扱う。
この欠点に対処するために,高ダイナミックレンジ360{\deg}パノラマの大規模測光データセットであるlaval photometric indoor hdrデータセットを紹介する。
私たちの重要な貢献は、既存のキャリブレーションされていないHDRデータセットの校正です。
プロの測光装置(クロマメータ)と同時に、さまざまな照明条件において、生のブラケット露光を正確に捉えて撮影する。
得られた測定値を用いて,HDR画像に適用するキャリブレーション係数を確立する。
得られたデータセットは、広い範囲の照度と色、様々な種類の光源を表示する、屋内シーンの豊かな表現である。
このデータセットを利用して、画素毎の輝度、ピクセル毎の色、平面上の照度を1つの入力画像から予測できる3つの新しいタスクを導入する。
最後に、商用の360{\deg}カメラで別の小さな測光データセットをキャプチャして、カメラ間の一般化を実験する。
私たちは、データセットと関連するコードのリリースが、コミュニティ内の物理的に正確な光の推定に関心を惹きつけると楽観的です。
データセットとコードはhttps://lvsn.github.io/beyondthepixel/で入手できる。 Light plays an important role in human well-being. However, most computer vision tasks treat pixels without considering their relationship to physical luminance. To address this shortcoming, we introduce the Laval Photometric Indoor HDR Dataset, the first large-scale photometrically calibrated dataset of high dynamic range 360{\deg} panoramas. Our key contribution is the calibration of an existing, uncalibrated HDR Dataset. We do so by accurately capturing RAW bracketed exposures simultaneously with a professional photometric measurement device (chroma meter) for multiple scenes across a variety of lighting conditions. Using the resulting measurements, we establish the calibration coefficients to be applied to the HDR images. The resulting dataset is a rich representation of indoor scenes which displays a wide range of illuminance and color, and varied types of light sources. We exploit the dataset to introduce three novel tasks, where: per-pixel luminance, per-pixel color and planar illuminance can be predicted from a single input image. Finally, we also capture another smaller photometric dataset with a commercial 360{\deg} camera, to experiment on generalization across cameras. We are optimistic that the release of our datasets and associated code will spark interest in physically accurate light estimation within the community. Dataset and code are available at https://lvsn.github.io/beyondthepixel/. | 翻訳日:2023-10-16 17:56:36 公開日:2023-10-13 |
# Perfectionism Search Algorithm (PSA): 効率的なメタヒューリスティック最適化手法 Perfectionism Search Algorithm (PSA): An Efficient Meta-Heuristic Optimization Approach ( http://arxiv.org/abs/2304.11486v2 ) ライセンス: Link先を確認 | A. Ghodousian, M. Mollakazemiha, N. Karimian | (参考訳) 本稿では, 完全主義の心理学的側面に基づく, 完全主義探索アルゴリズム (psa) と呼ばれる新しい集団型メタヒューリスティック最適化アルゴリズムを提案する。
PSAアルゴリズムはヒューイットとフレットによって提案された完全主義の最も一般的なモデルの一つである。
PSAアルゴリズムの各イテレーションにおいて、異なる型と完全主義的振る舞いの側面を模倣して新しい解が生成される。
PSAの性能を十分に把握するために,本論文から35個のベンチマーク関数を選択することにより,様々な非線形最適化問題を用いて提案アルゴリズムを検証した。
これらの問題の解は、多くの複雑で実用的な工学最適化問題に適用された11の有名なメタヒューリスティックと比較された。
その結果,他のよく知られたアルゴリズムと比較して,提案アルゴリズムの高性能性を確認した。 This paper proposes a novel population-based meta-heuristic optimization algorithm, called Perfectionism Search Algorithm (PSA), which is based on the psychological aspects of perfectionism. The PSA algorithm takes inspiration from one of the most popular model of perfectionism, which was proposed by Hewitt and Flett. During each iteration of the PSA algorithm, new solutions are generated by mimicking different types and aspects of perfectionistic behavior. In order to have a complete perspective on the performance of PSA, the proposed algorithm is tested with various nonlinear optimization problems, through selection of 35 benchmark functions from the literature. The generated solutions for these problems, were also compared with 11 well-known meta-heuristics which had been applied to many complex and practical engineering optimization problems. The obtained results confirm the high performance of the proposed algorithm in comparison to the other well-known algorithms. | 翻訳日:2023-10-16 17:56:14 公開日:2023-10-13 |
# transhp:階層的プロンプトによる画像分類 TransHP: Image Classification with Hierarchical Prompting ( http://arxiv.org/abs/2304.06385v4 ) ライセンス: Link先を確認 | Wenhao Wang, Yifan Sun, Wei Li, Yi Yang | (参考訳) 本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。
従来のhicメソッドと異なり、私たちの階層的プロンプトは、祖先クラス識別の恩恵を受けるトークン化されたヒントとして、祖先クラス情報を明示的に注入する最初の方法です。
これは人間の視覚認識をよく模倣している、すなわち、人間は祖先のクラスを、子孫のクラス間の微妙な違いに焦点を合わせるための手掛かりとして使うかもしれない。
このプロンプト機構を階層型プロンプト(transhp)によるトランスフォーマーにモデル化する。
TransHPは3つのステップから構成される。
1)粗い(祖先)クラスを表現するために一連のプロンプトトークンを学ぶ。
2)中間ブロックにおける入力画像の粗いクラスをオンザフライで予測する。
3) 予測された粗いクラスのプロンプトトークンを中間機能に注入する。
transhpのパラメータは、全ての入力画像で同じだが、注入された粗クラスプロンプト条件は、次の特徴抽出を修飾し、後続クラス間の比較的微妙な違いに動的に焦点を合わせる。
広範な実験により、transhpは精度(例えば、vit-b/16を+2.83%のimagenet分類精度で改善)、トレーニングデータ効率(例えば、10%のimagenetトレーニングデータで+12.69%改善)、モデル説明可能性の向上が示されている。
さらに、TransHPは従来のHIC手法に対して良好に動作し、TransHPが階層的な情報をうまく活用していることを示す。 This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information. | 翻訳日:2023-10-16 17:55:30 公開日:2023-10-13 |
# ロバストなSAR車両認識のための階層的異方性アライメントネットワーク Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle Recognition ( http://arxiv.org/abs/2304.03550v2 ) ライセンス: Link先を確認 | Weijie Li, Wei Yang, Wenpeng Zhang, Tianpeng Liu, Yongxiang Liu, Li Liu | (参考訳) 車両認識は、SAR画像解釈における根本的な問題である。
しかし、SARでは、大きなクラス内変動と小さなクラス間変動のため、頑健な車両目標認識は難しい課題である。
さらに、大きなデータセットがないため、タスクはさらに複雑になる。
本稿では,ターゲットシグネチャのばらつきと深層学習説明可能性の分析に着想を得て,階層的異方性調整ネットワーク(hdanet)と呼ばれる新しいドメインアライメントフレームワークを提案する。
正確には、HDANetは機能障害とアライメントを、ドメインデータ生成、マルチタスク支援マスクのアライメント、ターゲット機能のドメインアライメントという3つのモジュールで統合したフレームワークに統合する。
最初のモジュールはアライメントのための多様なデータを生成し、ターゲットシグネチャのバリエーションをシミュレートするために3つのシンプルで効果的なデータ拡張手法が設計されている。
第2のモジュールは、マルチタスク支援マスクを使用して、背景クラッタからターゲット特徴を切り離して、その後のアライメントに干渉しないようにする。
第3のモジュールはドメインアライメントに対照的な損失を導入し、生成された多様なデータから堅牢なターゲット特徴を抽出する。
最後に,提案手法は,mstarデータセット内の9つの動作条件にまたがる印象的なロバスト性を示し,本手法の有効性を検証する広範な質的定量的解析を行った。 Vehicle recognition is a fundamental problem in SAR image interpretation. However, robustly recognizing vehicle targets is a challenging task in SAR due to the large intraclass variations and small interclass variations. Additionally, the lack of large datasets further complicates the task. Inspired by the analysis of target signature variations and deep learning explainability, this paper proposes a novel domain alignment framework named the Hierarchical Disentanglement-Alignment Network (HDANet) to achieve robustness under various operating conditions. Concisely, HDANet integrates feature disentanglement and alignment into a unified framework with three modules: domain data generation, multitask-assisted mask disentanglement, and domain alignment of target features. The first module generates diverse data for alignment, and three simple but effective data augmentation methods are designed to simulate target signature variations. The second module disentangles the target features from background clutter using the multitask-assisted mask to prevent clutter from interfering with subsequent alignment. The third module employs a contrastive loss for domain alignment to extract robust target features from generated diverse data and disentangled features. Lastly, the proposed method demonstrates impressive robustness across nine operating conditions in the MSTAR dataset, and extensive qualitative and quantitative analyses validate the effectiveness of our framework. | 翻訳日:2023-10-16 17:55:02 公開日:2023-10-13 |
# 教師なし連続ドメインシフト学習のための補完ドメイン適応と一般化 Complementary Domain Adaptation and Generalization for Unsupervised Continual Domain Shift Learning ( http://arxiv.org/abs/2303.15833v2 ) ライセンス: Link先を確認 | Wonguk Cho, Jinha Park, Taesup Kim | (参考訳) 連続的なドメインシフトは、特にラベル付きデータが新しいドメインで利用できない状況において、現実世界のアプリケーションにおいて大きな課題となる。
この問題における知識獲得の課題は、教師なし連続的ドメインシフト学習と呼ばれる。
既存のドメイン適応と一般化の方法は、特定のドメインへの適応か、見えないドメインへの一般化に重点を置いているが、両方ではないため、この問題に対処する上での制限がある。
本稿では,非教師なし連続的なドメインシフト学習の3つの主要な目標を達成するために,ドメイン適応と一般化を相補的に組み合わせたシンプルかつ効果的な学習フレームワークである補完的ドメイン適応・一般化(CoDAG)を提案する。
我々のアプローチはモデルに依存しないため、既存のドメイン適応および一般化アルゴリズムと互換性がある。
我々はCoDAGをいくつかのベンチマークデータセットで評価し、我々のモデルはすべてのデータセットや評価指標において最先端のモデルよりも優れており、教師なし連続的なドメインシフト学習を扱う上での有効性と堅牢性を強調している。 Continual domain shift poses a significant challenge in real-world applications, particularly in situations where labeled data is not available for new domains. The challenge of acquiring knowledge in this problem setting is referred to as unsupervised continual domain shift learning. Existing methods for domain adaptation and generalization have limitations in addressing this issue, as they focus either on adapting to a specific domain or generalizing to unseen domains, but not both. In this paper, we propose Complementary Domain Adaptation and Generalization (CoDAG), a simple yet effective learning framework that combines domain adaptation and generalization in a complementary manner to achieve three major goals of unsupervised continual domain shift learning: adapting to a current domain, generalizing to unseen domains, and preventing forgetting of previously seen domains. Our approach is model-agnostic, meaning that it is compatible with any existing domain adaptation and generalization algorithms. We evaluate CoDAG on several benchmark datasets and demonstrate that our model outperforms state-of-the-art models in all datasets and evaluation metrics, highlighting its effectiveness and robustness in handling unsupervised continual domain shift learning. | 翻訳日:2023-10-16 17:54:21 公開日:2023-10-13 |
# バリューガイドデータフィルタリングによるクロスドメインポリシー適応 Cross-Domain Policy Adaptation via Value-Guided Data Filtering ( http://arxiv.org/abs/2305.17625v2 ) ライセンス: Link先を確認 | Kang Xu, Chenjia Bai, Xiaoteng Ma, Dong Wang, Bin Zhao, Zhen Wang, Xuelong Li, Wei Li | (参考訳) 動的ミスマッチによるドメイン間のポリシーの一般化は、強化学習において重要な課題となる。
例えば、ロボットはシミュレータでポリシーを学習するが、現実の世界にデプロイされると、環境のダイナミクスが異なる可能性がある。
動的ミスマッチのあるソースドメインとターゲットドメインを考えると、ターゲットドメインとのオンラインインタラクションが制限されている間にエージェントが十分なソースドメインデータにアクセスすることができるオンラインダイナミクス適応問題を考える。
既存の研究は、ダイナミクスの不一致の観点からこの問題を解決しようと試みている。
本稿では、これらの手法の限界を明らかにし、ドメイン間の価値整合性に関する新しい洞察を通して、価値差の観点から問題を探求する。
具体的には、2つの領域にまたがるペア値ターゲットの近接性に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
キネマティック・モルフォロジーシフトを用いた各種環境における実験結果から,従来の手法よりも優れた性能が得られることが示された。 Generalizing policies across different domains with dynamics mismatch poses a significant challenge in reinforcement learning. For example, a robot learns the policy in a simulator, but when it is deployed in the real world, the dynamics of the environment may be different. Given the source and target domain with dynamics mismatch, we consider the online dynamics adaptation problem, in which case the agent can access sufficient source domain data while online interactions with the target domain are limited. Existing research has attempted to solve the problem from the dynamics discrepancy perspective. In this work, we reveal the limitations of these methods and explore the problem from the value difference perspective via a novel insight on the value consistency across domains. Specifically, we present the Value-Guided Data Filtering (VGDF) algorithm, which selectively shares transitions from the source domain based on the proximity of paired value targets across the two domains. Empirical results on various environments with kinematic and morphology shifts demonstrate that our method achieves superior performance compared to prior approaches. | 翻訳日:2023-10-16 17:48:32 公開日:2023-10-13 |
# マルチモーダル言語モデルによる画像生成 Generating Images with Multimodal Language Models ( http://arxiv.org/abs/2305.17216v3 ) ライセンス: Link先を確認 | Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov | (参考訳) 本研究では,凍結したテキストのみの大規模言語モデル (LLM) を,事前に訓練した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルは,画像検索,新しい画像生成,マルチモーダル対話など,多様なマルチモーダル機能を示す。
oursは、画像とテキスト入力を任意にインターリーブし、コヒーレントな画像(およびテキスト)出力を生成することができる最初のアプローチである。
画像生成において高い性能を達成するために,LLMをオフザシェルフテキスト・画像生成モデルに接地する効率的なマッピングネットワークを提案する。
このマッピングネットワークは,テキストの隠れ表現を視覚モデルの埋め込み空間に変換することで,LLMの強いテキスト表現を視覚出力に活用する。
我々のアプローチは、より長く複雑な言語でタスクのベースライン生成モデルより優れている。
また,新たな画像生成に加えて,予め指定したデータセットから画像検索を行うことができ,推定時に検索するか生成するかを決定する。
これはLLMの隠された表現を条件とした学習的な決定モジュールによって行われる。
従来のマルチモーダル言語モデルと比較して,我々のモデルは幅広い能力を示す。
画像とテキストの入力を処理し、検索された画像、生成された画像、および生成されたテキストを生成することができる。 We propose a method to fuse frozen text-only large language models (LLMs) with pre-trained image encoder and decoder models, by mapping between their embedding spaces. Our model demonstrates a wide suite of multimodal capabilities: image retrieval, novel image generation, and multimodal dialogue. Ours is the first approach capable of conditioning on arbitrarily interleaved image and text inputs to generate coherent image (and text) outputs. To achieve strong performance on image generation, we propose an efficient mapping network to ground the LLM to an off-the-shelf text-to-image generation model. This mapping network translates hidden representations of text into the embedding space of the visual models, enabling us to leverage the strong text representations of the LLM for visual outputs. Our approach outperforms baseline generation models on tasks with longer and more complex language. In addition to novel image generation, our model is also capable of image retrieval from a prespecified dataset, and decides whether to retrieve or generate at inference time. This is done with a learnt decision module which conditions on the hidden representations of the LLM. Our model exhibits a wider range of capabilities compared to prior multimodal language models. It can process image-and-text inputs, and produce retrieved images, generated images, and generated text -- outperforming non-LLM based generation models across several text-to-image tasks that measure context dependence. | 翻訳日:2023-10-16 17:48:14 公開日:2023-10-13 |
# CUEING: hUman attEntion in driviNGをキャプチャするための軽量モデル CUEING: a lightweight model to Capture hUman attEntion In driviNG ( http://arxiv.org/abs/2305.15710v2 ) ライセンス: Link先を確認 | Linfeng Liang, Yao Deng, Yang Zhang, Jianchao Lu, Chen Wang, Quanzheng Sheng, Xi Zheng | (参考訳) 自律運転システム(ADS)と人間ドライバーとの意思決定の相違は、このギャップを埋めるために直感的な人間の視線予測器の必要性を強調し、ユーザー信頼と経験を改善する。
既存の視線データセットはその価値にもかかわらず、効果的なトレーニングを妨げているノイズに悩まされている。
さらに、現在の視線予測モデルは、様々なシナリオにまたがって不整合を示し、かなりの計算資源を必要とし、自動運転車への搭載を制限する。
本稿では,既存の視線データセットからノイズを除去する適応的浄化手法と,頑健で軽量な自己注意型視線予測モデルを提案する。
当社のアプローチは,モデル一般化可能性と性能を最大12.13%向上させるだけでなく,最先端技術と比較して,モデル複雑性を最大98.2%削減し,車載配置をADSの可視化と性能向上に有効にしている。 Discrepancies in decision-making between Autonomous Driving Systems (ADS) and human drivers underscore the need for intuitive human gaze predictors to bridge this gap, thereby improving user trust and experience. Existing gaze datasets, despite their value, suffer from noise that hampers effective training. Furthermore, current gaze prediction models exhibit inconsistency across diverse scenarios and demand substantial computational resources, restricting their on-board deployment in autonomous vehicles. We propose a novel adaptive cleansing technique for purging noise from existing gaze datasets, coupled with a robust, lightweight convolutional self-attention gaze prediction model. Our approach not only significantly enhances model generalizability and performance by up to 12.13% but also ensures a remarkable reduction in model complexity by up to 98.2% compared to the state-of-the art, making in-vehicle deployment feasible to augment ADS decision visualization and performance. | 翻訳日:2023-10-16 17:47:12 公開日:2023-10-13 |
# 辞書に基づく同期一般化による生物医学的名前付きエンティティ認識 Biomedical Named Entity Recognition via Dictionary-based Synonym Generalization ( http://arxiv.org/abs/2305.13066v2 ) ライセンス: Link先を確認 | Zihao Fu, Yixuan Su, Zaiqiao Meng, Nigel Collier | (参考訳) バイオメディカル名称認識は、バイオメディカル自然言語処理(BioNLP)のコアタスクの1つである。
この課題に取り組むために、多くの監督/監督されたアプローチが提案されている。
その顕著な成功にもかかわらず、これらのアプローチは労力のかかる人間の努力を必然的に要求する。
人的努力の必要性を軽減するため、辞書に基づくアプローチが提案され、単に与えられた辞書に基づいて名前付きエンティティを抽出する。
しかし、既存の辞書ベースのアプローチの欠点は、与えられた辞書にリストされていない概念同義語を特定することであり、これは同義語一般化問題である。
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
特に、シンゲンは、(1)同義語距離正規化子、(2)雑音摂動正規化子という2つの正規化項を導入し、同義語一般化誤差を最小化する。
提案手法の有効性を示すため,同義語一般化誤差の境界に関する理論的解析を行った。
提案手法を幅広いベンチマークで広範囲に評価し,その結果から,従来の辞書モデルに比較してsyngenが有意なマージンを示した。
最後に、我々のアプローチのメリットと内部作業をさらに明らかにするために、詳細な分析を提供する。 Biomedical named entity recognition is one of the core tasks in biomedical natural language processing (BioNLP). To tackle this task, numerous supervised/distantly supervised approaches have been proposed. Despite their remarkable success, these approaches inescapably demand laborious human effort. To alleviate the need of human effort, dictionary-based approaches have been proposed to extract named entities simply based on a given dictionary. However, one downside of existing dictionary-based approaches is that they are challenged to identify concept synonyms that are not listed in the given dictionary, which we refer as the synonym generalization problem. In this study, we propose a novel Synonym Generalization (SynGen) framework that recognizes the biomedical concepts contained in the input text using span-based predictions. In particular, SynGen introduces two regularization terms, namely, (1) a synonym distance regularizer; and (2) a noise perturbation regularizer, to minimize the synonym generalization error. To demonstrate the effectiveness of our approach, we provide a theoretical analysis of the bound of synonym generalization error. We extensively evaluate our approach on a wide range of benchmarks and the results verify that SynGen outperforms previous dictionary-based models by notable margins. Lastly, we provide a detailed analysis to further reveal the merits and inner-workings of our approach. | 翻訳日:2023-10-16 17:46:05 公開日:2023-10-13 |
# dumb:オランダモデルのスマート評価のためのベンチマーク DUMB: A Benchmark for Smart Evaluation of Dutch Models ( http://arxiv.org/abs/2305.13026v2 ) ライセンス: Link先を確認 | Wietse de Vries, Martijn Wieling and Malvina Nissim | (参考訳) オランダのモデルベンチマークであるDUMBを紹介します。
ベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれている。
9つのタスクの合計セットには、以前はオランダで利用できなかった4つのタスクが含まれる。
タスク間の平均スコアに頼る代わりに,言語モデルのDUMB性能を,言語モデルの異なるセットを評価する場合でも将来参照可能な強力なベースラインと比較する,相対誤差低減(RER)を提案する。
事前訓練された14の言語モデル(単言語と多言語、様々なサイズ)を比較して、ベンチマークタスクの内部の一貫性と高いパフォーマンスを実現する要因を評価する。
以上の結果から,現在のオランダのモノリンガルモデルはパフォーマンスが低く,他のアーキテクチャと事前学習目標を用いたより大きなオランダモデルのトレーニングが提案されている。
現在、最高パフォーマンスはDeBERTaV3(大規模)、XLM-R(大規模)、mDeBERTaV3(ベース)である。
より大規模なオランダモデルを訓練するための最良の戦略を強調することに加えて、DUMBはオランダに関するさらなる研究を促進する。
public leaderboardはhttps://dumbench.nl.com/で入手できる。 We introduce the Dutch Model Benchmark: DUMB. The benchmark includes a diverse set of datasets for low-, medium- and high-resource tasks. The total set of nine tasks includes four tasks that were previously not available in Dutch. Instead of relying on a mean score across tasks, we propose Relative Error Reduction (RER), which compares the DUMB performance of language models to a strong baseline which can be referred to in the future even when assessing different sets of language models. Through a comparison of 14 pre-trained language models (mono- and multi-lingual, of varying sizes), we assess the internal consistency of the benchmark tasks, as well as the factors that likely enable high performance. Our results indicate that current Dutch monolingual models under-perform and suggest training larger Dutch models with other architectures and pre-training objectives. At present, the highest performance is achieved by DeBERTaV3 (large), XLM-R (large) and mDeBERTaV3 (base). In addition to highlighting best strategies for training larger Dutch models, DUMB will foster further research on Dutch. A public leaderboard is available at https://dumbench.nl. | 翻訳日:2023-10-16 17:45:43 公開日:2023-10-13 |
# 神経異質性のパワーへの期待 Dive into the Power of Neuronal Heterogeneity ( http://arxiv.org/abs/2305.11484v2 ) ライセンス: Link先を確認 | Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Yi Zeng | (参考訳) 生物学的ニューラルネットワークは巨大で多様な構造であり、高い神経異質性を持つ。
従来のニューラルネットワーク(anns)は、トレーニングを通じて接続の重み付けを変更することに集中し、ニューロンを高度に均質な実体としてモデル化し、神経の不均一性の探索を欠いている。
神経特性と接続重みを最適化し、ネットワーク性能を確保することで神経不均一性に対処した研究はわずかである。
しかし、この戦略は神経異質性の特定の寄与に影響を及ぼす。
本稿では,スパイクニューラルネットワーク(snn)の最適化において,バックプロパゲーションに基づく手法が直面する課題を最初に提示し,進化戦略(es)を用いたランダムネットワークにおける異種ニューロンのより堅牢な最適化を実現する。
作業記憶、連続制御、画像認識などのタスクの実験は、特に長いシーケンスタスクにおいて、神経の不均一性がパフォーマンスを向上させることを示す。
さらに, 膜時間定数は神経異質性において重要な役割を担っており, その分布は生物学的実験で観察されたものと類似している。
したがって、無視された神経の異質性は、生物学における神経の異質性を探究するための新しいアプローチと、より生物学的に妥当なニューラルネットワークを設計するための新しい方法を提供する。 The biological neural network is a vast and diverse structure with high neural heterogeneity. Conventional Artificial Neural Networks (ANNs) primarily focus on modifying the weights of connections through training while modeling neurons as highly homogenized entities and lacking exploration of neural heterogeneity. Only a few studies have addressed neural heterogeneity by optimizing neuronal properties and connection weights to ensure network performance. However, this strategy impact the specific contribution of neuronal heterogeneity. In this paper, we first demonstrate the challenges faced by backpropagation-based methods in optimizing Spiking Neural Networks (SNNs) and achieve more robust optimization of heterogeneous neurons in random networks using an Evolutionary Strategy (ES). Experiments on tasks such as working memory, continuous control, and image recognition show that neuronal heterogeneity can improve performance, particularly in long sequence tasks. Moreover, we find that membrane time constants play a crucial role in neural heterogeneity, and their distribution is similar to that observed in biological experiments. Therefore, we believe that the neglected neuronal heterogeneity plays an essential role, providing new approaches for exploring neural heterogeneity in biology and new ways for designing more biologically plausible neural networks. | 翻訳日:2023-10-16 17:45:26 公開日:2023-10-13 |
# OpenDataVal: データ評価のための統一ベンチマーク OpenDataVal: a Unified Benchmark for Data Valuation ( http://arxiv.org/abs/2306.10577v3 ) ライセンス: Link先を確認 | Kevin Fu Jiang, Weixin Liang, James Zou, Yongchan Kwon | (参考訳) 個々のデータポイントの品質と影響を評価することは、モデルパフォーマンスを改善し、トレーニングデータセット内の望ましくないバイアスを軽減するために重要です。
データ品質を定量化するためにいくつかのデータ評価アルゴリズムが提案されているが、データ評価のための体系的で標準化されたベンチマークシステムがない。
本稿では、研究者や実践者が様々なデータ評価アルゴリズムを適用して比較できるようにする、使いやすく統一されたベンチマークフレームワークOpenDataValを紹介する。
OpenDataValは統合された環境を提供する
(i)画像、自然言語、表形式のデータセットの多種多様なコレクション。
(ii)11種類の最先端データ評価アルゴリズムの実装と実装
(iii) scikit-learnで任意のモデルをインポート可能な予測モデルapi。
さらに、データ値の品質を評価するための4つの下流機械学習タスクを提案する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
一つのアルゴリズムが全てのタスクに対して一様に最善を尽くすことはなく、ユーザの下流タスクに適切なアルゴリズムを適用すべきである。
OpenDataValはhttps://opendataval.github.ioで公開されている。
さらに、研究者が自身のデータバリュエーションアルゴリズムの有効性を評価できるリーダーボードを提供する。 Assessing the quality and impact of individual data points is critical for improving model performance and mitigating undesirable biases within the training dataset. Several data valuation algorithms have been proposed to quantify data quality, however, there lacks a systemic and standardized benchmarking system for data valuation. In this paper, we introduce OpenDataVal, an easy-to-use and unified benchmark framework that empowers researchers and practitioners to apply and compare various data valuation algorithms. OpenDataVal provides an integrated environment that includes (i) a diverse collection of image, natural language, and tabular datasets, (ii) implementations of eleven different state-of-the-art data valuation algorithms, and (iii) a prediction model API that can import any models in scikit-learn. Furthermore, we propose four downstream machine learning tasks for evaluating the quality of data values. We perform benchmarking analysis using OpenDataVal, quantifying and comparing the efficacy of state-of-the-art data valuation approaches. We find that no single algorithm performs uniformly best across all tasks, and an appropriate algorithm should be employed for a user's downstream task. OpenDataVal is publicly available at https://opendataval.github.io with comprehensive documentation. Furthermore, we provide a leaderboard where researchers can evaluate the effectiveness of their own data valuation algorithms. | 翻訳日:2023-10-16 17:37:04 公開日:2023-10-13 |
# ロボット操作のためのユニバーサルセマンティクス・ジオメトリ表現 A Universal Semantic-Geometric Representation for Robotic Manipulation ( http://arxiv.org/abs/2306.10474v2 ) ライセンス: Link先を確認 | Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao | (参考訳) ロボットはセンサー、特にRGBと深度カメラに大きく依存し、世界に対する認識と対話を行う。
RGBカメラは、正確な空間情報を欠きながら、豊かな意味情報を持つ2D画像を記録する。
一方、深度カメラは重要な3Dジオメトリデータを提供するが、セマンティクスは限られている。
したがって、ロボットの知覚と制御を学習するためには、両方のモダリティを統合することが不可欠である。
しかし、現在の研究は主にこれらのモダリティの1つに焦点を合わせており、両方を組み込むことの利点を無視している。
この目的のために,大規模な事前学習2次元モデルのリッチな意味情報を活用し,空間的推論の利点を継承するロボットのための普遍的認識モジュールである$\textbf{Semantic-Geometric Representation} (\textbf{SGR})$を提案する。
実験の結果、SGRはエージェントに対して、シミュレーションおよび実世界の様々なロボット操作タスクを成功させ、シングルタスクとマルチタスクの両方において、最先端の手法よりも優れた性能を発揮することが示された。
さらに、SGRは、新しいセマンティック属性に一般化する機能を持ち、他のメソッドとは分離する。
プロジェクトウェブサイト: https://semantic-geometric-representation.github.io Robots rely heavily on sensors, especially RGB and depth cameras, to perceive and interact with the world. RGB cameras record 2D images with rich semantic information while missing precise spatial information. On the other side, depth cameras offer critical 3D geometry data but capture limited semantics. Therefore, integrating both modalities is crucial for learning representations for robotic perception and control. However, current research predominantly focuses on only one of these modalities, neglecting the benefits of incorporating both. To this end, we present $\textbf{Semantic-Geometric Representation} (\textbf{SGR})$, a universal perception module for robotics that leverages the rich semantic information of large-scale pre-trained 2D models and inherits the merits of 3D spatial reasoning. Our experiments demonstrate that SGR empowers the agent to successfully complete a diverse range of simulated and real-world robotic manipulation tasks, outperforming state-of-the-art methods significantly in both single-task and multi-task settings. Furthermore, SGR possesses the capability to generalize to novel semantic attributes, setting it apart from the other methods. Project website: https://semantic-geometric-representation.github.io. | 翻訳日:2023-10-16 17:36:48 公開日:2023-10-13 |
# 多視点クラスインクリメンタルラーニング Multi-View Class Incremental Learning ( http://arxiv.org/abs/2306.09675v3 ) ライセンス: Link先を確認 | Depeng Li, Tianqi Wang, Junwei Chen, Kenji Kawaguchi, Cheng Lian, Zhigang Zeng | (参考訳) マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,MVL手法をオープンエンド環境でより実践的にするために,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムを考察する。
しかし、MVCILは、古い情報の破滅的な忘れと新しい概念の学習への干渉に悩まされている。
そこで本研究では,まず特徴量抽出のためのランダム化に基づく表現学習手法を開発し,その過程でクラスに属する複数のビューを逐次的に提示し,それらを抽出した特徴量にまたがる直交性融合部分空間に1つずつ統合し,さらに,新しいクラスに遭遇しながら学習支援意思決定のための選択的重み統合を提案する。
合成および実世界のデータセットに関する大規模な実験は、我々のアプローチの有効性を検証する。 Multi-view learning (MVL) has gained great success in integrating information from multiple perspectives of a dataset to improve downstream task performance. To make MVL methods more practical in an open-ended environment, this paper investigates a novel paradigm called multi-view class incremental learning (MVCIL), where a single model incrementally classifies new classes from a continual stream of views, requiring no access to earlier views of data. However, MVCIL is challenged by the catastrophic forgetting of old information and the interference with learning new concepts. To address this, we first develop a randomization-based representation learning technique serving for feature extraction to guarantee their separate view-optimal working states, during which multiple views belonging to a class are presented sequentially; Then, we integrate them one by one in the orthogonality fusion subspace spanned by the extracted features; Finally, we introduce selective weight consolidation for learning-without-forgetting decision-making while encountering new classes. Extensive experiments on synthetic and real-world datasets validate the effectiveness of our approach. | 翻訳日:2023-10-16 17:36:26 公開日:2023-10-13 |
# NAVI: 高品質な3次元形状とポスアノテーションを持つカテゴリ非依存画像コレクション NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations ( http://arxiv.org/abs/2306.09109v2 ) ライセンス: Link先を確認 | Varun Jampani, Kevis-Kokitsi Maninis, Andreas Engelhardt, Arjun Karpur, Karen Truong, Kyle Sargent, Stefan Popov, Andr\'e Araujo, Ricardo Martin-Brualla, Kaushal Patel, Daniel Vlasic, Vittorio Ferrari, Ameesh Makadia, Ce Liu, Yuanzhen Li, Howard Zhou | (参考訳) ニューラル再構成の最近の進歩は、カジュアルにキャプチャされた画像コレクションから高品質な3Dオブジェクトの再構築を可能にする。
現在の技術は、比較的単純な画像収集の進捗を分析し、SfM(Structure-from-Motion)技術はGTカメラのポーズを提供することができる。
sfm技術は,背景や照明の異なる画像検索結果など,野生のイメージコレクションでは失敗する傾向がある。
カジュアル・イメージ・キャプチャーからの3D再構成を体系的に研究するために,高品質な3Dスキャンと画像毎の2D-3Dアライメントにより,ほぼ完璧なGTカメラパラメータを提供するNAVIを提案する。
これらの2D-3Dアライメントにより,高密度画素対応,深度,セグメンテーションマップなどの正確な微分アノテーションを抽出できる。
NAVIイメージコレクションを異なる問題設定で使用し、NAVIが既存のデータセットでは不可能なより詳細な評価を可能にすることを示す。
NAVIは3次元再構成と対応推定の体系的な研究の進展に有用であると考えている。
プロジェクトページ: https://navidataset.github.io Recent advances in neural reconstruction enable high-quality 3D object reconstruction from casually captured image collections. Current techniques mostly analyze their progress on relatively simple image collections where Structure-from-Motion (SfM) techniques can provide ground-truth (GT) camera poses. We note that SfM techniques tend to fail on in-the-wild image collections such as image search results with varying backgrounds and illuminations. To enable systematic research progress on 3D reconstruction from casual image captures, we propose NAVI: a new dataset of category-agnostic image collections of objects with high-quality 3D scans along with per-image 2D-3D alignments providing near-perfect GT camera parameters. These 2D-3D alignments allow us to extract accurate derivative annotations such as dense pixel correspondences, depth and segmentation maps. We demonstrate the use of NAVI image collections on different problem settings and show that NAVI enables more thorough evaluations that were not possible with existing datasets. We believe NAVI is beneficial for systematic research progress on 3D reconstruction and correspondence estimation. Project page: https://navidataset.github.io | 翻訳日:2023-10-16 17:36:08 公開日:2023-10-13 |
# 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成 Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation ( http://arxiv.org/abs/2306.08247v3 ) ライセンス: Link先を確認 | Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu | (参考訳) 粒子移動を記述する物理学における拡散現象から派生した拡散生成モデルは、消音軌道に沿ってデータ空間内の確率的ランダムウォークの特性を継承する。
しかし、画像領域間の内在的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる実用的な下流アプリケーションシナリオ(例えば、ユーザ提供の単一画像に基づくパーソナライズ生成や塗り込みといったカスタマイズタスク)の必要性と矛盾する。
本研究では, 拡散(機械学習)特性における拡散(物理)について検討し, コンディショニングの低レベル画素情報を保存する必要がある多目的カスタマイズ応用シナリオにおいて, 事前学習された凍結拡散モデルが与える拡散現象の方向を制御するための循環的一方向拡散(cow)法を提案する。
特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で幅広いカスタマイズシナリオに適用できる。
広範囲にわたる実験結果から,提案する牛は,異なるアプリケーション環境での厳密な視覚条件に基づいて,より柔軟なカスタマイズが可能となった。 Originating from the diffusion phenomenon in physics that describes particle movement, the diffusion generative models inherit the characteristics of stochastic random walk in the data space along the denoising trajectory. However, the intrinsic mutual interference among image regions contradicts the need for practical downstream application scenarios where the preservation of low-level pixel information from given conditioning is desired (e.g., customization tasks like personalized generation and inpainting based on a user-provided single image). In this work, we investigate the diffusion (physics) in diffusion (machine learning) properties and propose our Cyclic One-Way Diffusion (COW) method to control the direction of diffusion phenomenon given a pre-trained frozen diffusion model for versatile customization application scenarios, where the low-level pixel information from the conditioning needs to be preserved. Notably, unlike most current methods that incorporate additional conditions by fine-tuning the base text-to-image diffusion model or learning auxiliary networks, our method provides a novel perspective to understand the task needs and is applicable to a wider range of customization scenarios in a learning-free manner. Extensive experiment results show that our proposed COW can achieve more flexible customization based on strict visual conditions in different application settings. | 翻訳日:2023-10-16 17:35:44 公開日:2023-10-13 |
# アルゴリズム的公平の7年間の未処理 Unprocessing Seven Years of Algorithmic Fairness ( http://arxiv.org/abs/2306.07261v4 ) ライセンス: Link先を確認 | Andr\'e F. Cruz, Moritz Hardt | (参考訳) 7年前、研究者は異なる集団間でモデルのエラー率を均等化するポストプロセッシング法を提案した。
作業は後処理のベースラインを改善するために数百の論文を発行した。
いくつかの表付きデータセット上で数千のモデル評価を行うことで,これらの主張を実証的に評価する。
ポストプロセッシングによって達成されたフェアネス精度のParetoフロンティアには、評価可能な他の方法がすべて含まれています。
そこで我々は,これまでの観測結果と合致した方法論的誤りを2つ解決した。
1つは、異なる制約のないベースモデルとのメソッドの比較に関するものである。
他の関心事は、異なるレベルの制約緩和を達成する方法である。
私たちの研究の中心は、ポストプロセッシングの逆に対応するアンプロセッシング(unprocessing)と呼ばれる単純なアイデアです。
アンプロセッシングにより、異なるモデルと緩和レベルを使用するメソッドを直接比較することができる。 Seven years ago, researchers proposed a postprocessing method to equalize the error rates of a model across different demographic groups. The work launched hundreds of papers purporting to improve over the postprocessing baseline. We empirically evaluate these claims through thousands of model evaluations on several tabular datasets. We find that the fairness-accuracy Pareto frontier achieved by postprocessing contains all other methods we were feasibly able to evaluate. In doing so, we address two common methodological errors that have confounded previous observations. One relates to the comparison of methods with different unconstrained base models. The other concerns methods achieving different levels of constraint relaxation. At the heart of our study is a simple idea we call unprocessing that roughly corresponds to the inverse of postprocessing. Unprocessing allows for a direct comparison of methods using different underlying models and levels of relaxation. | 翻訳日:2023-10-16 17:35:19 公開日:2023-10-13 |
# インプットニューラル表現を用いたインプットと予測のための時系列連続モデリング Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2306.05880v4 ) ライセンス: Link先を確認 | Etienne Le Naour, Louis Serrano, L\'eon Migus, Yuan Yin, Ghislain Agoua, Nicolas Baskiotis, Patrick Gallinari, Vincent Guigue | (参考訳) 時系列計算と予測のための新しいモデリング手法を導入し、不規則なサンプル、欠落データ、複数のセンサからの非整合測定など、現実世界のデータで頻繁に発生する課題に対処する。
本手法はシリーズの進化ダイナミクスの連続時間依存モデルに依存する。
シーケンシャルデータに対する条件付き暗黙のニューラル表現の適応を利用する。
メタラーニングアルゴリズムによって駆動される変調機構は、長期間の予測のために観測された時間窓を超えたサンプルと外挿への適応を可能にする。
このモデルは非常に柔軟で統一されたフレームワークを提供し、幅広い挑戦的なシナリオにわたってタスクのインプテーションと予測を行う。
古典的なベンチマークで最先端のパフォーマンスを達成し、代替の時間連続モデルより優れている。 We introduce a novel modeling approach for time series imputation and forecasting, tailored to address the challenges often encountered in real-world data, such as irregular samples, missing data, or unaligned measurements from multiple sensors. Our method relies on a continuous-time-dependent model of the series' evolution dynamics. It leverages adaptations of conditional, implicit neural representations for sequential data. A modulation mechanism, driven by a meta-learning algorithm, allows adaptation to unseen samples and extrapolation beyond observed time-windows for long-term predictions. The model provides a highly flexible and unified framework for imputation and forecasting tasks across a wide range of challenging scenarios. It achieves state-of-the-art performance on classical benchmarks and outperforms alternative time-continuous models. | 翻訳日:2023-10-16 17:35:08 公開日:2023-10-13 |
# 誰に正しい理由があるのか? Being Right for Whose Right Reasons? ( http://arxiv.org/abs/2306.00639v2 ) ライセンス: Link先を確認 | Terne Sasha Thorn Jakobsen, Laura Cabello, Anders S{\o}gaard | (参考訳) 説明可能性法は、モデル予測が人間の合理性、すなわち「正しい理由のために正しい」程度をベンチマークするために用いられる。
しかし、それまでの研究は、理性として数えられるものは時々主観的であると認めなかった。
本稿では,アノテータの人口統計情報を付加した人間の合理化アノテーションのコレクションである,その第1種と考えられるものについて述べる。
感情分析と常識推論にまたがる3つのデータセットと6つの人口集団(年齢と民族のバランス)をカバーしています。
このようなデータによって、予測がどの年齢層に合致するか、モデルの理論的根拠が合致するかを問うことができます。
系統的なグループ間アノテータの不一致を発見し、16のトランスフォーマーベースのモデルが、特定の人口集団によって提供される有理性とどのように一致しているかを示す。
我々は、モデルサイズとモデル蒸留の効果を拡大し、モデルサイズと合理化合意の間の負の相関を見いだすとともに、モデルサイズまたはモデル蒸留が公正性を改善するという証拠も示さない。 Explainability methods are used to benchmark the extent to which model predictions align with human rationales i.e., are 'right for the right reasons'. Previous work has failed to acknowledge, however, that what counts as a rationale is sometimes subjective. This paper presents what we think is a first of its kind, a collection of human rationale annotations augmented with the annotators demographic information. We cover three datasets spanning sentiment analysis and common-sense reasoning, and six demographic groups (balanced across age and ethnicity). Such data enables us to ask both what demographics our predictions align with and whose reasoning patterns our models' rationales align with. We find systematic inter-group annotator disagreement and show how 16 Transformer-based models align better with rationales provided by certain demographic groups: We find that models are biased towards aligning best with older and/or white annotators. We zoom in on the effects of model size and model distillation, finding -- contrary to our expectations -- negative correlations between model size and rationale agreement as well as no evidence that either model size or model distillation improves fairness. | 翻訳日:2023-10-16 17:34:33 公開日:2023-10-13 |
# 大きな言語モデルは、新しい文学的メタファーを解釈する創発的な能力を示す Large Language Model Displays Emergent Ability to Interpret Novel Literary Metaphors ( http://arxiv.org/abs/2308.01497v2 ) ライセンス: Link先を確認 | Nicholas Ichien, Du\v{s}an Stamenkovi\'c, Keith J. Holyoak | (参考訳) 大規模言語モデル(LLM)の性能の最近の進歩は、十分な訓練を受けて、そのような汎用人工知能(AI)にハイレベルな人間の能力が出現するかどうかという議論を引き起こしている。
自然言語処理や推論を含む幅広いタスクにおけるLLMの例外的なパフォーマンスにもかかわらず、それらの能力がより創造的な人間の能力に拡張されるかどうかについては、明確な意見の相違がある。
主な例は、新しいメタファーを解釈する能力である。
LLMのトレーニングに使用される巨大な非キュレートテキストコーパスを考えると、テストの設計における重大な障害は、トレーニングデータに含まれないような、新しくて高品質なメタファを見つけることにある。
ここでは,セルビアの詩から引用され,英語に翻訳された小説のメタファーを自然言語で解釈する技術であるGPT4の評価を行った。
これまでこれらのメタファーに暴露された兆候は示さなかったが、AIシステムは一貫して詳細で切迫した解釈を生み出した。
人間の裁判官は、AIモデルが関与しているという事実に盲目であり、GPT4が生成したメタファ解釈を、大学生のグループによって提供されるものよりも優れていると評価した。
逆メタファーの解釈において、gpt4は人間と同様にグリセアの協調原理に敏感な兆候を示した。
さらに、いくつかの新しい英詩において、GPT4は人間の文芸評論家によって優れた、あるいは良いと評価された解釈を生み出した。
これらの結果から, GPT4などのLPMは, 新たな詩に埋め込まれたような複雑なメタファーを解釈する創発的な能力を得たことが示唆された。 Recent advances in the performance of large language models (LLMs) have sparked debate over whether, given sufficient training, high-level human abilities emerge in such generic forms of artificial intelligence (AI). Despite the exceptional performance of LLMs on a wide range of tasks involving natural language processing and reasoning, there has been sharp disagreement as to whether their abilities extend to more creative human abilities. A core example is the ability to interpret novel metaphors. Given the enormous and non curated text corpora used to train LLMs, a serious obstacle to designing tests is the requirement of finding novel yet high quality metaphors that are unlikely to have been included in the training data. Here we assessed the ability of GPT4, a state of the art large language model, to provide natural-language interpretations of novel literary metaphors drawn from Serbian poetry and translated into English. Despite exhibiting no signs of having been exposed to these metaphors previously, the AI system consistently produced detailed and incisive interpretations. Human judges, blind to the fact that an AI model was involved, rated metaphor interpretations generated by GPT4 as superior to those provided by a group of college students. In interpreting reversed metaphors, GPT4, as well as humans, exhibited signs of sensitivity to the Gricean cooperative principle. In addition, for several novel English poems GPT4 produced interpretations that were rated as excellent or good by a human literary critic. These results indicate that LLMs such as GPT4 have acquired an emergent ability to interpret complex metaphors, including those embedded in novel poems. | 翻訳日:2023-10-16 17:28:29 公開日:2023-10-13 |
# ニューラルポイントに基づく容積アバター:高効率で光現実的な容積ヘッドアバターのための表面誘導ニューラルポイント Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar ( http://arxiv.org/abs/2307.05000v2 ) ライセンス: Link先を確認 | Cong Wang, Di Kang, Yan-Pei Cao, Linchao Bao, Ying Shan, Song-Hai Zhang | (参考訳) ar/vrおよびビデオ会議アプリケーションにおける快適で没入的な体験を確保するには、フォトリアリスティックで動的に動く人間の頭部のレンダリングが不可欠である。
しかし、既存の方法は、しばしば挑戦的な顔領域(例えば、口内、目、髪、ひげ)をモデル化するのに苦労し、非現実的でぼやけた結果をもたらす。
本稿では,ニューラルポイント表現とニューラルボリュームレンダリングを併用し,メッシュベースアプローチによって課される事前定義された接続性とハード対応を破棄する手法である {\fullname} ({\name})を提案する。
具体的には、高分解能uv変位マップを介してターゲット式の表面を戦略的に制約し、モデリング能力の向上とより正確な制御を実現する。
本稿では3つの技術革新を導入してレンダリングとトレーニングの効率化を図る: パッチワイド深度誘導(シェーディングポイント)サンプリング戦略、軽量ラディアンス復号法、およびトレーニング中のグリッド・エラー・パッチ(GEP)レイサンプリング戦略である。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を処理できる。
また,Multifaceデータセットから得られた3つの実験により,従来の最先端手法,特に難易度の高い顔領域の処理において,設計の有効性を実証した。 Rendering photorealistic and dynamically moving human heads is crucial for ensuring a pleasant and immersive experience in AR/VR and video conferencing applications. However, existing methods often struggle to model challenging facial regions (e.g., mouth interior, eyes, hair/beard), resulting in unrealistic and blurry results. In this paper, we propose {\fullname} ({\name}), a method that adopts the neural point representation as well as the neural volume rendering process and discards the predefined connectivity and hard correspondence imposed by mesh-based approaches. Specifically, the neural points are strategically constrained around the surface of the target expression via a high-resolution UV displacement map, achieving increased modeling capacity and more accurate control. We introduce three technical innovations to improve the rendering and training efficiency: a patch-wise depth-guided (shading point) sampling strategy, a lightweight radiance decoding process, and a Grid-Error-Patch (GEP) ray sampling strategy during training. By design, our {\name} is better equipped to handle topologically changing regions and thin structures while also ensuring accurate expression control when animating avatars. Experiments conducted on three subjects from the Multiface dataset demonstrate the effectiveness of our designs, outperforming previous state-of-the-art methods, especially in handling challenging facial regions. | 翻訳日:2023-10-16 17:27:35 公開日:2023-10-13 |
# GPT4RoI: 関心領域に基づく大規模言語モデルの学習 GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest ( http://arxiv.org/abs/2307.03601v2 ) ライセンス: Link先を確認 | Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Yu Liu, Kai Chen, Ping Luo | (参考訳) 画像テキストペアで大言語モデル(llm)をチューニングするビジュアル命令は、汎用視覚言語能力を達成している。
しかし、領域文対の欠如は、その進歩を細かなマルチモーダル理解に制限する。
本稿では,この命令における関心領域(RoI)を参照する空間的命令チューニングを提案する。
LLMに送信する前に、参照はRoI機能に置き換えられ、シーケンスとして言語埋め込みとインターリーブされる。
我々のモデルであるGPT4RoIは、7つの領域テキストペアデータセットに基づいて訓練されており、従来の画像レベルモデルと比較して、前例のない対話的かつ会話的な体験をもたらす。
1) 言語を超えたインタラクション: ユーザは言語と境界ボックスの描画の両方でモデルと対話でき、参照の粒度を柔軟に調整できます。
2)多彩なマルチモーダル能力:各roi内のさまざまな属性情報をgpt4roi(例えば色、形状、材料、動作など)によってマイニングすることができる。
さらに、常識に基づいて複数のRoIを推論することができる。
visual commonsense reasoning(vcr)データセットでは、gpt4roiは81.6%という驚くべき精度を達成し、既存の全てのモデルを大きく上回り(第2位は75.6%)、ほぼ人間レベルのパフォーマンス85.0%に達した。
コード、データセット、デモはhttps://github.com/jshilong/gpt4roiで見ることができる。 Visual instruction tuning large language model(LLM) on image-text pairs has achieved general-purpose vision-language abilities. However, the lack of region-text pairs limits their advancements to fine-grained multimodal understanding. In this paper, we propose spatial instruction tuning, which introduces the reference to the region-of-interest(RoI) in the instruction. Before sending to LLM, the reference is replaced by RoI features and interleaved with language embeddings as a sequence. Our model GPT4RoI, trained on 7 region-text pair datasets, brings an unprecedented interactive and conversational experience compared to previous image-level models. (1) Interaction beyond language: Users can interact with our model by both language and drawing bounding boxes to flexibly adjust the referring granularity. (2) Versatile multimodal abilities: A variety of attribute information within each RoI can be mined by GPT4RoI, e.g., color, shape, material, action, etc. Furthermore, it can reason about multiple RoIs based on common sense. On the Visual Commonsense Reasoning(VCR) dataset, GPT4RoI achieves a remarkable accuracy of 81.6%, surpassing all existing models by a significant margin (the second place is 75.6%) and almost reaching human-level performance of 85.0%. The code, dataset, and demo can be found at https://github.com/jshilong/GPT4RoI. | 翻訳日:2023-10-16 17:27:09 公開日:2023-10-13 |
# 消去検出論理測定による超伝導二重レール空洞量子ビットの実証 Demonstrating a superconducting dual-rail cavity qubit with erasure-detected logical measurements ( http://arxiv.org/abs/2307.03169v3 ) ライセンス: Link先を確認 | Kevin S. Chou, Tali Shemma, Heather McCarrick, Tzu-Chiao Chien, James D. Teoh, Patrick Winkel, Amos Anderson, Jonathan Chen, Jacob Curtis, Stijn J. de Graaf, John W. O. Garmon, Benjamin Gudlewski, William D. Kalfus, Trevor Keen, Nishaad Khedkar, Chan U Lei, Gangqiang Liu, Pinlei Lu, Yao Lu, Aniket Maiti, Luke Mastalli-Kelly, Nitish Mehta, Shantanu O. Mundhada, Anirudh Narla, Taewan Noh, Takahiro Tsunoda, Sophia H. Xue, Joseph O. Yuan, Luigi Frunzio, Jose Aumentado, Shruti Puri, Steven M. Girvin, S. Harvey Moseley, Jr., Robert J. Schoelkopf | (参考訳) スケーラブルな誤り訂正量子システムを開発する上で重要な課題は、操作と測定をしながらエラーの蓄積である。
有望なアプローチの1つは、エラーを検出して消去できるシステムを設計することである。
このような消去量子ビットを利用したシステムは、量子誤り訂正の要求を緩和することが知られている。
最近の提案では、超伝導キャビティを用いたデュアルレール符号化を目標としている。
しかし、デュアルレールキャビティ量子ビットの実験的特性と実証はまだ実現されていない。
本研究では,このような二重レールキャビティ量子ビットを実装し,消去検出を統合した投影的論理計測を行い,デュアルレール量子ビットアイドリング誤差の測定に用いる。
論理状態の生成と測定誤差を0.01 %$レベルで測定し,99 %$以上の空洞崩壊事象を消去として検出する。
我々は,この新たな測定プロトコルの精度を用いて,このシステムの異なる種類の誤差を識別し,確率$\sim 0.2\%$/マイクロ秒で減衰誤差が発生するのに対して,位相誤差は6倍の頻度で発生し,ビットフリップは少なくとも140倍の頻度で発生することを発見した。
これらの結果は,2重レール消去量子ビットを高効率な消去符号に結合するために必要な誤差階層を初めて確認したことを示す。 A critical challenge in developing scalable error-corrected quantum systems is the accumulation of errors while performing operations and measurements. One promising approach is to design a system where errors can be detected and converted into erasures. Such a system utilizing erasure qubits are known to have relaxed requirements for quantum error correction. A recent proposal aims to do this using a dual-rail encoding with superconducting cavities. However, experimental characterization and demonstration of a dual-rail cavity qubit has not yet been realized. In this work, we implement such a dual-rail cavity qubit; we demonstrate a projective logical measurement with integrated erasure detection and use it to measure dual-rail qubit idling errors. We measure logical state preparation and measurement errors at the $0.01\%$-level and detect over $99\%$ of cavity decay events as erasures. We use the precision of this new measurement protocol to distinguish different types of errors in this system, finding that while decay errors occur with probability $\sim 0.2\%$ per microsecond, phase errors occur 6 times less frequently and bit flips occur at least 140 times less frequently. These findings represent the first confirmation of the expected error hierarchy necessary to concatenate dual-rail erasure qubits into a highly efficient erasure code. | 翻訳日:2023-10-16 17:26:45 公開日:2023-10-13 |
# 単一空間を用いたEvade ChatGPT検出器 Evade ChatGPT Detectors via A Single Space ( http://arxiv.org/abs/2307.02599v2 ) ライセンス: Link先を確認 | Shuyang Cai and Wanyun Cui | (参考訳) ChatGPTは革命的な社会的価値をもたらすが、AI生成テキストの誤用も懸念する。
したがって、重要な疑問は、ChatGPTによってテキストが生成されるか、人間によって生成されるかを検出することである。
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分散的なギャップがあるという仮定に基づいて構築されている。
これらのギャップは一般に統計情報や分類器を用いて識別される。
我々の研究は検出器における分布ギャップの仮定に挑戦する。
検知器は人間生成テキストとAI生成テキストのセマンティックスとスタイリスティックなギャップを効果的に識別できない。
代わりに、余剰空間のような「部分差」が検出に不可欠となる。
この発見に基づいて,検出を回避するSpaceInfi戦略を提案する。
実験では、複数のベンチマークと検出器でこの戦略の有効性を示す。
また,spaceinfiが過度検出の回避に成功している理由を理論的に説明する。
そして、トークン変異と呼ばれる現象が言語モデルに基づく検出器の回避を引き起こすことを実証的に示す。
より応用性の高いChatGPT検出器の理解と構築のための新たな知見と課題を提供する。 ChatGPT brings revolutionary social value but also raises concerns about the misuse of AI-generated text. Consequently, an important question is how to detect whether texts are generated by ChatGPT or by human. Existing detectors are built upon the assumption that there are distributional gaps between human-generated and AI-generated text. These gaps are typically identified using statistical information or classifiers. Our research challenges the distributional gap assumption in detectors. We find that detectors do not effectively discriminate the semantic and stylistic gaps between human-generated and AI-generated text. Instead, the "subtle differences", such as an extra space, become crucial for detection. Based on this discovery, we propose the SpaceInfi strategy to evade detection. Experiments demonstrate the effectiveness of this strategy across multiple benchmarks and detectors. We also provide a theoretical explanation for why SpaceInfi is successful in evading perplexity-based detection. And we empirically show that a phenomenon called token mutation causes the evasion for language model-based detectors. Our findings offer new insights and challenges for understanding and constructing more applicable ChatGPT detectors. | 翻訳日:2023-10-16 17:26:22 公開日:2023-10-13 |
# グラフニューラルネットワークを用いたログ異常検出と説明 Graph Neural Networks based Log Anomaly Detection and Explanation ( http://arxiv.org/abs/2307.00527v2 ) ライセンス: Link先を確認 | Zhong Li, Jiayang Shi, Matthijs van Leeuwen | (参考訳) イベントログはハイテクシステムの状態を記録するために広く使われており、ログ異常検出はシステムを監視する上で重要である。
既存のログ異常検出手法のほとんどは、ログイベントカウントマトリックスまたはログイベントシーケンスを入力として、ログイベント間の量的および/または逐次的な関係を利用して異常を検出する。
残念ながら、定量的またはシーケンシャルな関係のみを考慮すると、検出精度は低い。
この問題を軽減するために,まずイベントログを属性付き,方向付き,重み付きグラフに変換し,次にグラフニューラルネットワークを利用してグラフレベルの異常検出を行う,Logs2Graphsという,教師なしログ異常検出のためのグラフベースの手法を提案する。
具体的には、属性付き、有向、重み付きグラフの集合において、グラフレベルの異常を検出する新しいグラフニューラルネットワークモデルであるOCDiGCNと略されるOne-Class Digraph Inception Convolutional Networksを紹介する。
グラフ表現と異常検出ステップを結合することにより、OCDiGCNは特に異常検出に適した表現を学ぶことができ、高い検出精度が得られる。
重要なことに、同定された各異常に対して、OCDiGCNの予測を説明として重要な役割を果たす少数のノードも提供し、その後の根本原因診断に有用な手がかりを提供する。
5つのベンチマークデータセットにおける実験では、logs2graphsは、単純なデータセットで最先端のログ異常検出メソッドと同等に動作し、複雑なデータセットで最先端のログ異常検出メソッドをほとんど上回っています。 Event logs are widely used to record the status of high-tech systems, making log anomaly detection important for monitoring those systems. Most existing log anomaly detection methods take a log event count matrix or log event sequences as input, exploiting quantitative and/or sequential relationships between log events to detect anomalies. Unfortunately, only considering quantitative or sequential relationships may result in low detection accuracy. To alleviate this problem, we propose a graph-based method for unsupervised log anomaly detection, dubbed Logs2Graphs, which first converts event logs into attributed, directed, and weighted graphs, and then leverages graph neural networks to perform graph-level anomaly detection. Specifically, we introduce One-Class Digraph Inception Convolutional Networks, abbreviated as OCDiGCN, a novel graph neural network model for detecting graph-level anomalies in a collection of attributed, directed, and weighted graphs. By coupling the graph representation and anomaly detection steps, OCDiGCN can learn a representation that is especially suited for anomaly detection, resulting in a high detection accuracy. Importantly, for each identified anomaly, we additionally provide a small subset of nodes that play a crucial role in OCDiGCN's prediction as explanations, which can offer valuable cues for subsequent root cause diagnosis. Experiments on five benchmark datasets show that Logs2Graphs performs at least on par with state-of-the-art log anomaly detection methods on simple datasets while largely outperforming state-of-the-art log anomaly detection methods on complicated datasets. | 翻訳日:2023-10-16 17:26:06 公開日:2023-10-13 |
# AI生成テキストのロバストな透かし Provable Robust Watermarking for AI-Generated Text ( http://arxiv.org/abs/2306.17439v2 ) ライセンス: Link先を確認 | Xuandong Zhao, Prabhanjan Ananth, Lei Li, Yu-Xiang Wang | (参考訳) LLM使用時の安全性問題に対処するための最も有望なアプローチの1つとして,大言語モデル(LLM)生成テキストの透かしについて検討する。
本稿では,LLM透かしの有効性とロバスト性を定量化する厳密な理論的枠組みを提案する。
固定グループ化戦略を簡略化した既存手法を拡張し,堅牢で高品質な透かし手法Unigram-Watermarkを提案する。
本手法は,生成品質の保証,透かし検出の正確性,テキスト編集やパラフレージングに頑健であることを証明する。
3つの異なるLLMと2つのデータセットの実験により、我々のUnigram-Watermarkは、パープレキシティにおいて優れた検出精度と同等な生成品質を実現し、LCMの責任ある利用を促進する。
コードはhttps://github.com/XuandongZhao/Unigram-Watermarkで入手できる。 We study the problem of watermarking large language models (LLMs) generated text -- one of the most promising approaches for addressing the safety challenges of LLM usage. In this paper, we propose a rigorous theoretical framework to quantify the effectiveness and robustness of LLM watermarks. We propose a robust and high-quality watermark method, Unigram-Watermark, by extending an existing approach with a simplified fixed grouping strategy. We prove that our watermark method enjoys guaranteed generation quality, correctness in watermark detection, and is robust against text editing and paraphrasing. Experiments on three varying LLMs and two datasets verify that our Unigram-Watermark achieves superior detection accuracy and comparable generation quality in perplexity, thus promoting the responsible use of LLMs. Code is available at https://github.com/XuandongZhao/Unigram-Watermark. | 翻訳日:2023-10-16 17:25:41 公開日:2023-10-13 |
# 不規則時系列の事前異常検出 Precursor-of-Anomaly Detection for Irregular Time Series ( http://arxiv.org/abs/2306.15489v3 ) ライセンス: Link先を確認 | Sheo Yon Jhin, Jaehoon Lee, Noseong Park | (参考訳) 異常検出は予期せぬパターンやデータポイントを特定することを目的とした重要な分野であり、金融、製造、サイバーセキュリティなどにおける多くの現実世界の問題と密接に関連している。
様々な分野で異常検出が広く研究されているが、今後の異常検出は未発見領域のままである。
本稿では,新しいタイプの異常検出手法であるPrecursor-of-Anomaly(PoA)について述べる。
特定の時系列観測が異常であるか否かを決定する従来の異常検出とは異なり、PoA検出は将来の異常を検出することを目的としている。
両課題を同時に解決するために,ニューラル制御による微分方程式に基づくニューラルネットワークとそのマルチタスク学習アルゴリズムを提案する。
17のベースラインと3つのデータセットを使って、規則的および不規則な時系列を含む実験を行い、提案手法がほぼすべてのケースでベースラインを上回ることを実証した。
また, マルチタスクトレーニング手法は, 異常検出とpoa検出の両方において, 全体的な性能を著しく向上させることが示唆された。 Anomaly detection is an important field that aims to identify unexpected patterns or data points, and it is closely related to many real-world problems, particularly to applications in finance, manufacturing, cyber security, and so on. While anomaly detection has been studied extensively in various fields, detecting future anomalies before they occur remains an unexplored territory. In this paper, we present a novel type of anomaly detection, called Precursor-of-Anomaly (PoA) detection. Unlike conventional anomaly detection, which focuses on determining whether a given time series observation is an anomaly or not, PoA detection aims to detect future anomalies before they happen. To solve both problems at the same time, we present a neural controlled differential equation-based neural network and its multi-task learning algorithm. We conduct experiments using 17 baselines and 3 datasets, including regular and irregular time series, and demonstrate that our presented method outperforms the baselines in almost all cases. Our ablation studies also indicate that the multitasking training method significantly enhances the overall performance for both anomaly and PoA detection. | 翻訳日:2023-10-16 17:25:24 公開日:2023-10-13 |
# モンテカルロ対実レギュレット最小化 Pure Monte Carlo Counterfactual Regret Minimization ( http://arxiv.org/abs/2309.03084v3 ) ライセンス: Link先を確認 | Ju Qi, Ting Feng, Falun Hei, Zhemei Fang, Yunfeng Luo | (参考訳) 対実回帰最小化(CFR)とその変種は、大規模な不完全情報ゲームの解決に最適なアルゴリズムである。
しかし、CFRには2つの問題があると我々は信じている。まず、行列乗算はCFRイテレーションで必要であり、1つのイテレーションの時間的複雑さは高すぎる。
1つのCFRアルゴリズムを使用するだけでは、すべてのゲーム問題に完全に適合しない。
これら2つの問題に対して,CFRに基づくPure CFR(PCFR)と呼ばれる新しいアルゴリズムを提案する。
PCFR は CFR と Fictitious Play (FP) の組み合わせと見なすことができ、CFR から反実的後悔 (value) の概念を継承し、次のイテレーションの後悔マッチング戦略の代わりに最良の反応戦略を使用する。
このアルゴリズムには3つの利点がある。
まず、PCFRは任意のCFR変種と組み合わせることができる。
その結果、PMCCFR(Pure MCCFR)は、1イテレーションの時間と空間の複雑さを著しく減少させる。
第2に,PMCCFRの収束速度がMCCFRの2$\sim$3であることを示す。
最後に、PCFRに非常に適したタイプのゲームが存在する。
この種のゲームクリアゲームと呼び、支配的な戦略の比率が高いのが特徴です。
実験の結果,PMCCFRの収束速度はMCCFRよりも2桁高いことがわかった。 Counterfactual Regret Minimization (CFR) and its variants are the best algorithms so far for solving large-scale incomplete information games. However, we believe that there are two problems with CFR: First, matrix multiplication is required in CFR iteration, and the time complexity of one iteration is too high; Secondly, the game characteristics in the real world are different. Just using one CFR algorithm will not be perfectly suitable for all game problems. For these two problems, this paper proposes a new algorithm called Pure CFR (PCFR) based on CFR. PCFR can be seen as a combination of CFR and Fictitious Play (FP), inheriting the concept of counterfactual regret (value) from CFR, and using the best response strategy instead of the regret matching strategy for the next iteration. This algorithm has three advantages. First, PCFR can be combined with any CFR variant. The resulting Pure MCCFR (PMCCFR) can significantly reduce the time and space complexity of one iteration. Secondly, our experiments show that the convergence speed of the PMCCFR is 2$\sim$3 times that of the MCCFR. Finally, there is a type of game that is very suitable for PCFR. We call this type of game clear-game, which is characterized by a high proportion of dominated strategies. Experiments show that in clear-game, the convergence rate of PMCCFR is two orders of magnitude higher than that of MCCFR. | 翻訳日:2023-10-16 17:16:57 公開日:2023-10-13 |
# フラットミニマと対向ロバスト性による活性化空間の理論的説明 A Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness ( http://arxiv.org/abs/2309.03004v3 ) ライセンス: Link先を確認 | Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao | (参考訳) 近年のMLPブロックにおける活性化間隔のLi et al., 2022bは, 計算コストを大幅に削減する機会となっている。
アクティベーションスパーシティの既存の理論的な説明は、トレーニングダイナミクスによるものであるが、多くのステップで標準的に訓練された深層モデルに出現したにもかかわらず、浅いネットワーク、小さなトレーニングステップ、特別なトレーニングに限定されている。
これらのギャップを埋めるために、勾配空間を活性化空間の1つの源とする概念とそれに基づく理論的な説明を提案する。これは、よく学習されたモデルにおけるミニマの平坦さを概ね表すような、隠れた特徴やパラメータに逆らうための必要なステップである。
この理論は標準的に訓練されたLayerNorm-ed MLPや、ウェイトノイズで訓練されたトランスフォーマーや他のアーキテクチャにも適用される。
また, 重み行列の非零特異値の最大値と最小値の比率が小さいことを発見した。
このスペクトル集中の出現について論じる際、確率的勾配雑音を解析するための強力なツールとしてランダム行列理論(RMT)を用いる。
勾配スパーシティーに基づく説明を検証するための検証実験を行った。
本稿では2つのプラグ・アンド・プレイ・モジュールを提案する。
imagenet-1kとc4の実験では、50%のスパース性が改善され、トレーニングと推論の両方でさらなるコスト削減が期待できる。 A recent empirical observation (Li et al., 2022b) of activation sparsity in MLP blocks offers an opportunity to drastically reduce computation costs for free. Although having attributed it to training dynamics, existing theoretical explanations of activation sparsity are restricted to shallow networks, small training steps and special training, despite its emergence in deep models standardly trained for a large number of steps. To fill these gaps, we propose the notion of gradient sparsity as one source of activation sparsity and a theoretical explanation based on it that sees sparsity a necessary step to adversarial robustness w.r.t. hidden features and parameters, which is approximately the flatness of minima for well-learned models. The theory applies to standardly trained LayerNorm-ed MLPs, and further to Transformers or other architectures trained with weight noises. Eliminating other sources of flatness except for sparsity, we discover the phenomenon that the ratio between the largest and smallest non-zero singular values of weight matrices is small. When discussing the emergence of this spectral concentration, we use random matrix theory (RMT) as a powerful tool to analyze stochastic gradient noises. Validational experiments are conducted to verify our gradient-sparsity-based explanation. We propose two plug-and-play modules for both training and finetuning for sparsity. Experiments on ImageNet-1k and C4 demonstrate their 50% sparsity improvements, indicating further potential cost reduction in both training and inference. | 翻訳日:2023-10-16 17:16:37 公開日:2023-10-13 |
# HRリモートセンシング画像における変化検出のためのセグメントモデルの適用 Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images ( http://arxiv.org/abs/2309.01429v2 ) ライセンス: Link先を確認 | Lei Ding, Kun Zhu, Daifeng Peng, Hao Tang, Kuiwu Yang and Lorenzo Bruzzone | (参考訳) Segment Anything Model (SAM) のような視覚基礎モデル(VFM)は、ゼロショットまたはインタラクティブな視覚内容のセグメンテーションを可能にするため、様々な視覚シーンに迅速に適用することができる。
しかし、多くのリモートセンシング(rs)アプリケーションでの直接の使用は、rs画像の特別な撮像特性のため、しばしば不十分である。
本研究では,高解像度リモートセンシング画像(RSI)の変化検出を改善するために,VFMの強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
我々は,FastSAMをRSシーンの特定の基底オブジェクトに適応させるために,タスク指向の変更情報を集約する畳み込み適応器を提案する。
さらに、SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
SAMCD法は,SOTA法と比較して精度が高く,半教師付きCD法に匹敵する標本効率の学習能力を示す。
私たちの知る限りでは、HR RSIのCDにVFMを適用する最初の作品です。 Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs. | 翻訳日:2023-10-16 17:16:10 公開日:2023-10-13 |
# DictaBERT:現代ヘブライ語のための最先端のBERTスイート DictaBERT: A State-of-the-Art BERT Suite for Modern Hebrew ( http://arxiv.org/abs/2308.16687v2 ) ライセンス: Link先を確認 | Shaltiel Shmidman, Avi Shmidman, Moshe Koppel | (参考訳) DictaBERTは、最新のヘブライ語のための最先端の事前訓練されたBERTモデルであり、ほとんどのベンチマークで既存のモデルよりも優れています。
さらに, ヘブライ語文の分析において, 3つの基礎的タスク, 接頭辞のセグメンテーション, 形態的タグ付け, 質問応答を行うために, モデルを微調整した3つのバージョンをリリースする。
これらの微調整されたモデルは、任意の開発者が追加のライブラリやコードを統合することなく、HuggingFaceモデルへの単一の呼び出しでヘブライ語入力のプレフィックスセグメンテーション、形態的タグ付け、質問応答を実行することができる。
本稿では、トレーニングの詳細と、異なるベンチマークの結果について述べる。
モデルをコミュニティにリリースし、その使用例をサンプルコードで示しています。
ヘブライNLPのさらなる研究と開発を支援することを目的として,これらのモデルをリリースする。 We present DictaBERT, a new state-of-the-art pre-trained BERT model for modern Hebrew, outperforming existing models on most benchmarks. Additionally, we release three fine-tuned versions of the model, designed to perform three specific foundational tasks in the analysis of Hebrew texts: prefix segmentation, morphological tagging and question answering. These fine-tuned models allow any developer to perform prefix segmentation, morphological tagging and question answering of a Hebrew input with a single call to a HuggingFace model, without the need to integrate any additional libraries or code. In this paper we describe the details of the training as well and the results on the different benchmarks. We release the models to the community, along with sample code demonstrating their use. We release these models as part of our goal to help further research and development in Hebrew NLP. | 翻訳日:2023-10-16 17:15:51 公開日:2023-10-13 |
# Qwen-VL: 理解、ローカライゼーション、テキスト読解などのための多機能視覚言語モデル Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond ( http://arxiv.org/abs/2308.12966v3 ) ライセンス: Link先を確認 | Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou | (参考訳) 本研究では,テキストと画像の両方を知覚・理解するための大規模視覚言語モデル(LVLM)であるQwen-VLシリーズを紹介する。
ファウンデーションとしてのQwen-LMから始まり、精巧に設計した視覚能力を持つ。
視覚受容体; 視覚受容体; 視覚受容体
(ii)入力出力インタフェース、
(iii)3段階の訓練パイプライン、及び
(iv)多言語マルチモーダルクリーンコーパス。
従来の画像記述や質問応答以外にも,画像キャプチャボックスのタプルをアライメントすることで,Qwen-VLのグラウンドディングとテキスト読み出し機能を実装している。
Qwen-VL や Qwen-VL-Chat を含む結果のモデルは、視覚中心の幅広いベンチマーク(例えば、画像キャプション、質問応答、視覚的グラウンド)と異なる設定(例えば、ゼロショット、少数ショット)に基づいて、同様のモデルスケールでジェネラリストモデルの新たなレコードを設定した。
さらに、実世界のダイアログベンチマークでは、既存の視覚言語チャットボットと比較して、命令調整のQwen-VL-Chatが優れていることを示す。
コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。 In this work, we introduce the Qwen-VL series, a set of large-scale vision-language models (LVLMs) designed to perceive and understand both texts and images. Starting from the Qwen-LM as a foundation, we endow it with visual capacity by the meticulously designed (i) visual receptor, (ii) input-output interface, (iii) 3-stage training pipeline, and (iv) multilingual multimodal cleaned corpus. Beyond the conventional image description and question-answering, we implement the grounding and text-reading ability of Qwen-VLs by aligning image-caption-box tuples. The resulting models, including Qwen-VL and Qwen-VL-Chat, set new records for generalist models under similar model scales on a broad range of visual-centric benchmarks (e.g., image captioning, question answering, visual grounding) and different settings (e.g., zero-shot, few-shot). Moreover, on real-world dialog benchmarks, our instruction-tuned Qwen-VL-Chat also demonstrates superiority compared to existing vision-language chatbots. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL. | 翻訳日:2023-10-16 17:15:35 公開日:2023-10-13 |
# FRGNN:テスト時間特徴再構成によるグラフニューラルネットワークにおける分布シフトの影響の軽減 FRGNN: Mitigating the Impact of Distribution Shift on Graph Neural Networks via Test-Time Feature Reconstruction ( http://arxiv.org/abs/2308.09259v2 ) ライセンス: Link先を確認 | Rui Ding, Jielong Yang, Feng Ji, Xionghu Zhong, Linbo Xie | (参考訳) 不適切なサンプル選択と限られたトレーニングデータのため、トレーニングセットとテストセットの間に分布シフトがしばしば存在する。
このシフトは、グラフニューラルネットワーク(GNN)のテストパフォーマンスに悪影響を及ぼす可能性がある。
既存のアプローチは、分散シフトに対するGNNの堅牢性を高めるか、あるいはシフト自体を減らすことによって、この問題を軽減する。
しかし、どちらのアプローチもモデル構造とパラメータがアクセスできない場合には、モデルを再トレーニングする必要がある。
この課題に対処するため,機能再構築のための汎用フレームワークFR-GNNを提案する。
FRGNNは、よく訓練されたGNNの出力と入力の間のマッピング関係を構築し、クラス代表埋め込みを取得し、これらの埋め込みを使用してラベル付きノードの特徴を再構築する。
これらの再構成機能はGNNのメッセージパッシング機構に組み込まれ、テスト時の未ラベルノードの予測に影響を与える。
特に、再構成されたノード機能は、十分に訓練されたモデルをテストするために直接利用することができ、配布シフトを効果的に低減し、テストパフォーマンスが向上する。
この顕著な成果は、モデル構造やパラメータを変更することなく達成される。
我々は枠組みの有効性を理論的に保証する。
さらに,様々な公開データセットに関する包括的実験を行った。
実験の結果, FRGNNの性能は, ベースライン手法の複数のカテゴリと比較して優れていた。 Due to inappropriate sample selection and limited training data, a distribution shift often exists between the training and test sets. This shift can adversely affect the test performance of Graph Neural Networks (GNNs). Existing approaches mitigate this issue by either enhancing the robustness of GNNs to distribution shift or reducing the shift itself. However, both approaches necessitate retraining the model, which becomes unfeasible when the model structure and parameters are inaccessible. To address this challenge, we propose FR-GNN, a general framework for GNNs to conduct feature reconstruction. FRGNN constructs a mapping relationship between the output and input of a well-trained GNN to obtain class representative embeddings and then uses these embeddings to reconstruct the features of labeled nodes. These reconstructed features are then incorporated into the message passing mechanism of GNNs to influence the predictions of unlabeled nodes at test time. Notably, the reconstructed node features can be directly utilized for testing the well-trained model, effectively reducing the distribution shift and leading to improved test performance. This remarkable achievement is attained without any modifications to the model structure or parameters. We provide theoretical guarantees for the effectiveness of our framework. Furthermore, we conduct comprehensive experiments on various public datasets. The experimental results demonstrate the superior performance of FRGNN in comparison to multiple categories of baseline methods. | 翻訳日:2023-10-16 17:15:13 公開日:2023-10-13 |
# 局所適応型および微分可能な回帰 Locally Adaptive and Differentiable Regression ( http://arxiv.org/abs/2308.07418v2 ) ライセンス: Link先を確認 | Mingxuan Han, Varun Shankar, Jeff M Phillips, Chenglong Ye | (参考訳) ディープネットやランダムフォレストのような過剰パラメータモデルが、機械学習で非常に人気になっています。
しかし、回帰モデルでよく見られる連続性と微分可能性の自然な目標は、現代の過パラメータ、局所適応モデルでは無視されることが多い。
本研究では,局所学習モデルの重み付け平均値に基づくグローバル連続・微分可能モデルを構築するための汎用的枠組みを提案する。
このモデルは、異なる局所領域の関数値の密度やスケールの異なるデータを扱うことで競争力がある。
局所モデルでカーネルリッジと多項式回帰項を混合し,それらを連続的に縫合すると,理論上より高速な統計的収束が達成され,様々な実用的条件下での性能が向上することを示した。 Over-parameterized models like deep nets and random forests have become very popular in machine learning. However, the natural goals of continuity and differentiability, common in regression models, are now often ignored in modern overparametrized, locally-adaptive models. We propose a general framework to construct a global continuous and differentiable model based on a weighted average of locally learned models in corresponding local regions. This model is competitive in dealing with data with different densities or scales of function values in different local regions. We demonstrate that when we mix kernel ridge and polynomial regression terms in the local models, and stitch them together continuously, we achieve faster statistical convergence in theory and improved performance in various practical settings. | 翻訳日:2023-10-16 17:14:52 公開日:2023-10-13 |
# MM-Vet:統合能力のための大規模マルチモーダルモデルの評価 MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities ( http://arxiv.org/abs/2308.02490v2 ) ライセンス: Link先を確認 | Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang | (参考訳) 複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)の評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
迅速なモデル開発は、ベンチマーク開発の評価に課題をもたらす。
課題は,(1)複雑なマルチモーダルタスクを体系的に構造化し,評価する方法,(2)質問や回答のタイプでうまく機能する評価指標を設計する方法,(3)単純なパフォーマンスランキングを超えたモデルインサイトを提供する方法。
この目的のために、複雑なタスクを解く興味深い能力は、様々なコアビジョン言語(VL)機能を統合できる一般モデルによってしばしば達成されるという知見に基づいて設計されたMM-Vetを提案する。
MM-Vetは6つのコアVL機能を定義し、機能の組み合わせから導かれる16の関心統合を検証している。
評価指標として,オープンエンド出力のためのLCMに基づく評価器を提案する。
評価器は、異なる質問タイプと回答スタイルで評価が可能であり、その結果、統一されたスコアリング基準となる。
MM-Vetにおける代表的LMMを評価し、異なるLMMシステムパラダイムとモデルの能力に関する洞察を提供する。
コードとデータはhttps://github.com/yuweihao/MM-Vet.comで公開されている。 We propose MM-Vet, an evaluation benchmark that examines large multimodal models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various intriguing abilities, such as solving math problems written on the blackboard, reasoning about events and celebrities in news images, and explaining visual jokes. Rapid model advancements pose challenges to evaluation benchmark development. Problems include: (1) How to systematically structure and evaluate the complicated multimodal tasks; (2) How to design evaluation metrics that work well across question and answer types; and (3) How to give model insights beyond a simple performance ranking. To this end, we present MM-Vet, designed based on the insight that the intriguing ability to solve complicated tasks is often achieved by a generalist model being able to integrate different core vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and examines the 16 integrations of interest derived from the capability combination. For evaluation metrics, we propose an LLM-based evaluator for open-ended outputs. The evaluator enables the evaluation across different question types and answer styles, resulting in a unified scoring metric. We evaluate representative LMMs on MM-Vet, providing insights into the capabilities of different LMM system paradigms and models. Code and data are available at https://github.com/yuweihao/MM-Vet. | 翻訳日:2023-10-16 17:14:05 公開日:2023-10-13 |
# AutoML4ETC: リアルタイム暗号化トラフィック分類のためのニューラルネットワークの自動検索 AutoML4ETC: Automated Neural Architecture Search for Real-World Encrypted Traffic Classification ( http://arxiv.org/abs/2308.02182v3 ) ライセンス: Link先を確認 | Navid Malekghaini, Elham Akbari, Mohammad A. Salahuddin, Noura Limam, Raouf Boutaba, Bertrand Mathieu, Stephanie Moteau, Stephane Tuffin | (参考訳) deep learning (dl) は、実験環境での暗号化されたネットワークトラフィックの分類にうまく適用されている。
しかし, 製造において, DL分類器の性能は時間とともに必然的に低下することが示されている。
新たなデータセットでモデルを再トレーニングすることで、パフォーマンスが部分的に向上することが示されている。
新しいデータセットのパフォーマンス期待に応えるために、手動でモデルアーキテクチャを再調整するのは時間がかかり、ドメインの専門知識が必要です。
暗号化トラヒック分類のための効率良く高性能なニューラルアーキテクチャを自動設計する新しいツールであるautoml4etcを提案する。
パケットヘッダバイトを用いた暗号化トラフィックの早期分類に特化して,新しい強力な検索空間を定義する。
検索空間上の異なる検索戦略により、AutoML4ETCは、Orangeモバイルネットワークから収集された公開ベンチマークデータセットや実世界のTLS、QUICトラフィックを含む、いくつかのデータセット上で最先端の暗号化されたトラフィック分類器を上回る、ニューラルネットワークを生成する。
より正確なことに加えて、AutoML4ETCのアーキテクチャはパラメータの数に関してはるかに効率的で軽量である。
最後に、将来の研究のためにAutoML4ETCを公開します。 Deep learning (DL) has been successfully applied to encrypted network traffic classification in experimental settings. However, in production use, it has been shown that a DL classifier's performance inevitably decays over time. Re-training the model on newer datasets has been shown to only partially improve its performance. Manually re-tuning the model architecture to meet the performance expectations on newer datasets is time-consuming and requires domain expertise. We propose AutoML4ETC, a novel tool to automatically design efficient and high-performing neural architectures for encrypted traffic classification. We define a novel, powerful search space tailored specifically for the early classification of encrypted traffic using packet header bytes. We show that with different search strategies over our search space, AutoML4ETC generates neural architectures that outperform the state-of-the-art encrypted traffic classifiers on several datasets, including public benchmark datasets and real-world TLS and QUIC traffic collected from the Orange mobile network. In addition to being more accurate, AutoML4ETC's architectures are significantly more efficient and lighter in terms of the number of parameters. Finally, we make AutoML4ETC publicly available for future research. | 翻訳日:2023-10-16 17:13:41 公開日:2023-10-13 |
# ブロックチェーンに基づく分散物理インフラネットワーク(DePIN)の分類 A Taxonomy for Blockchain-based Decentralized Physical Infrastructure Networks (DePIN) ( http://arxiv.org/abs/2309.16707v2 ) ライセンス: Link先を確認 | Mark C. Ballandies, Hongyang Wang, Andrew Chung Chee Law, Joshua C. Yang, Christophe G\"osken, Michael Andrew | (参考訳) デジタル化と技術の進歩がインフラストラクチャの展望を形作るにつれ、ブロックチェーンベースの分散物理インフラストラクチャネットワーク(DePIN)の出現が注目されている。
しかし、DePINコンポーネントとその相互関係の体系的な分類はいまだに欠けている。
このギャップに対処するために,既存のフレームワークの文献レビューと分析を行い,概念的アーキテクチャからデピンシステムの分類法を導出した。
我々の分類学には、分散台帳技術、暗号経済設計、物理インフラネットワークの3つの重要な側面がある。
各次元内で関連するコンポーネントと属性を特定し、定義し、明確な階層構造を確立します。
さらに、特定されたコンポーネント間の関係と依存関係を説明し、ガバナンスモデル、ハードウェアアーキテクチャ、ネットワークプロトコル、トークン機構、分散台帳技術間の相互作用を強調する。
この分類は、多様なデピンネットワークを理解し分類するための基礎を提供し、将来の研究の基盤となり、知識交換を促進し、分散物理的インフラネットワークの新興分野におけるコラボレーションと標準化を促進する。 As digitalization and technological advancements continue to shape the infrastructure landscape, the emergence of blockchain-based decentralized physical infrastructure networks (DePINs) has gained prominence. However, a systematic categorization of DePIN components and their interrelationships is still missing. To address this gap, we conduct a literature review and analysis of existing frameworks and derived a taxonomy of DePIN systems from a conceptual architecture. Our taxonomy encompasses three key dimensions: distributed ledger technology, cryptoeconomic design and physicial infrastructure network. Within each dimension, we identify and define relevant components and attributes, establishing a clear hierarchical structure. Moreover, we illustrate the relationships and dependencies among the identified components, highlighting the interplay between governance models, hardware architectures, networking protocols, token mechanisms, and distributed ledger technologies. This taxonomy provides a foundation for understanding and classifying diverse DePIN networks, serving as a basis for future research and facilitating knowledge exchange, fostering collaboration and standardization within the emerging field of decentralized physical infrastructure networks. | 翻訳日:2023-10-16 17:08:16 公開日:2023-10-13 |
# オンラインcmdpにおけるモデルフリー, 後悔-最適政策識別 Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs ( http://arxiv.org/abs/2309.15395v3 ) ライセンス: Link先を確認 | Zihan Zhou, Honghao Wei, Lei Ying | (参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)におけるBPI問題について考察する。
我々は、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、高い確率で最適なポリシーを特定する。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムは、最適ポリシーへの収束保証を提供しておらず、以前に使用したすべてのポリシーからランダムにポリシーがサンプリングされた場合にのみ平均的なパフォーマンス保証を提供する。
本稿では,Koole(1988), Ross(1989)で証明されたCMDPの基本構造特性に基づいて,Pruning-Refinement-Identification (PRI)と呼ばれる新しいアルゴリズムを開発した。
このプロパティは、n$制約のあるcmdpに対して、最大$n$確率的決定を持つ最適なポリシーが存在すると言っている。
提案するアルゴリズムは,まず確率的決定を行うべき段階と状態を特定し,その確率的決定の分布を微調整する。
PRIは3つの目標を達成する。
(i)PRIはモデルフリーのアルゴリズムであり、
(ii)学習の最後に高い確率で、最適に近い政策を出力する。
(iii) 表設定において、pri は$\tilde{\mathcal{o}}(\sqrt{k})$ regret と制約違反を保証し、モデルフリーなアルゴリズムの下での$\tilde{\mathcal{o}}(k^{\frac{4}{5}})$ を著しく改善し、$k$ はエピソードの総数である。 This paper considers the best policy identification (BPI) problem in online Constrained Markov Decision Processes (CMDPs). We are interested in algorithms that are model-free, have low regret, and identify an optimal policy with a high probability. Existing model-free algorithms for online CMDPs with sublinear regret and constraint violation do not provide any convergence guarantee to an optimal policy and provide only average performance guarantees when a policy is uniformly sampled at random from all previously used policies. In this paper, we develop a new algorithm, named Pruning-Refinement-Identification (PRI), based on a fundamental structural property of CMDPs proved in Koole(1988); Ross(1989), which we call limited stochasticity. The property says for a CMDP with $N$ constraints, there exists an optimal policy with at most $N$ stochastic decisions. The proposed algorithm first identifies at which step and in which state a stochastic decision has to be taken and then fine-tunes the distributions of these stochastic decisions. PRI achieves trio objectives: (i) PRI is a model-free algorithm; and (ii) it outputs a near-optimal policy with a high probability at the end of learning; and (iii) in the tabular setting, PRI guarantees $\tilde{\mathcal{O}}(\sqrt{K})$ regret and constraint violation, which significantly improves the best existing regret bound $\tilde{\mathcal{O}}(K^{\frac{4}{5}})$ under a model-free algorithm, where $K$ is the total number of episodes. | 翻訳日:2023-10-16 17:07:57 公開日:2023-10-13 |
# MoCaE: 校正専門家の混在がオブジェクト検出を大幅に改善 MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection ( http://arxiv.org/abs/2309.14976v3 ) ライセンス: Link先を確認 | Kemal Oksuz and Selim Kuzucu and Tom Joy and Puneet K. Dokania | (参考訳) 本研究では,異なる対象検出器を忠実に組み合わせて,個々の専門家に優れた精度のMixture of Experts(MoE)を得る,極めてシンプルで効果的な手法を提案する。
これらの専門家を、よく知られたDeep Ensembles (DEs) と同様の方法で鼻で組み合わせても、効果的なMoEは得られない。
異なる検出器の信頼度スコア分布の不一致が,故障事例の主な原因であると考えられる。
そこで本提案では,まず各検出器を目標校正関数に対して校正することを提案する。
次に、混合中の様々な検出器から全ての予測をフィルタリングして精錬する。
我々はこのアプローチをMoCaEと呼び、オブジェクト検出、インスタンスセグメンテーション、回転オブジェクト検出タスクに関する広範な実験を通してその効果を実証する。
特にMoCaEは改善する
(i)COCOテストデブ上の3つの強い物体検出器の2.4ドル$\mathrm{AP}$59.0ドル$\mathrm{AP}$;
(ii)難解なlong-tailed lvisデータセットのインスタンスセグメンテーションメソッドは$2.3$$$$$\mathrm{ap}$; である。
(iii)既存の全ての回転物体検出器は、DOTAデータセット上で82.62$$\mathrm{AP_{50}}$に達し、新しい最先端(SOTA)を確立した。
コードは公開されます。 We propose an extremely simple and highly effective approach to faithfully combine different object detectors to obtain a Mixture of Experts (MoE) that has a superior accuracy to the individual experts in the mixture. We find that naively combining these experts in a similar way to the well-known Deep Ensembles (DEs), does not result in an effective MoE. We identify the incompatibility between the confidence score distribution of different detectors to be the primary reason for such failure cases. Therefore, to construct the MoE, our proposal is to first calibrate each individual detector against a target calibration function. Then, filter and refine all the predictions from different detectors in the mixture. We term this approach as MoCaE and demonstrate its effectiveness through extensive experiments on object detection, instance segmentation and rotated object detection tasks. Specifically, MoCaE improves (i) three strong object detectors on COCO test-dev by $2.4$ $\mathrm{AP}$ by reaching $59.0$ $\mathrm{AP}$; (ii) instance segmentation methods on the challenging long-tailed LVIS dataset by $2.3$ $\mathrm{AP}$; and (iii) all existing rotated object detectors by reaching $82.62$ $\mathrm{AP_{50}}$ on DOTA dataset, establishing a new state-of-the-art (SOTA). Code will be made public. | 翻訳日:2023-10-16 17:07:24 公開日:2023-10-13 |
# 合法的な関心は、iab europe tcf paywallsの大規模測定と法的遵守である。 Legitimate Interest is the New Consent -- Large-Scale Measurement and Legal Compliance of IAB Europe TCF Paywalls ( http://arxiv.org/abs/2309.11625v3 ) ライセンス: Link先を確認 | Victor Morel, Cristiana Santos, Viktor Fredholm, Adam Thunberg | (参考訳) cookie paywallsは、ウェブサイトの訪問者が料金を支払うかトラッキングを受けるかの選択をした後にのみ、そのコンテンツにアクセスできるようにする。
欧州データ保護機関(dpas)は最近、ペイウォールの合法性に関するガイドラインと決定を下したが、ウェブサイトがそれに従うかどうかはまだ不明である。
本稿では,自動クローラを用いた上位100万サイトにおけるクッキーペイウォールの普及状況について検討する。
我々は431個のcookie paywallsを特定し、すべてtransparency and consent framework (tcf) を用いている。
次に、これらのペイウォールがTCFを通じて通信するデータ、特に個人データの収集に使用される法的根拠と目的を分析します。
我々はクッキー・ペイウォールが合法的な利子関係の法的根拠に広く依存しているのを観察する。
また、ペイウォールの存在と、DPAによる法的決定やガイドラインとの相関関係の欠如も観察する。 Cookie paywalls allow visitors of a website to access its content only after they make a choice between paying a fee or accept tracking. European Data Protection Authorities (DPAs) recently issued guidelines and decisions on paywalls lawfulness, but it is yet unknown whether websites comply with them. We study in this paper the prevalence of cookie paywalls on the top one million websites using an automatic crawler. We identify 431 cookie paywalls, all using the Transparency and Consent Framework (TCF). We then analyse the data these paywalls communicate through the TCF, and in particular, the legal grounds and the purposes used to collect personal data. We observe that cookie paywalls extensively rely on legitimate interest legal basis systematically conflated with consent. We also observe a lack of correlation between the presence of paywalls and legal decisions or guidelines by DPAs. | 翻訳日:2023-10-16 17:06:59 公開日:2023-10-13 |
# EchoPrompt: 改善されたインコンテキスト学習のためのクエリのリフレクションモデル EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning ( http://arxiv.org/abs/2309.10687v2 ) ライセンス: Link先を確認 | Rajasekhar Reddy Mekala, Yasaman Razeghi, Sameer Singh | (参考訳) ゼロショットや少数ショットプロンプトといった推論時間プロンプト手法を積極的に採用することで、言語モデルはさまざまなタスクで印象的なパフォーマンスを達成しています。
本研究では,EchoPromptを提案する。これはシンプルだが効果的なアプローチで,モデルに応答する前にクエリをリフレッシュする。
EchoPromptは、標準とチェーンのプロンプトを備えたゼロショットと少数ショットのインコンテキスト学習の両方に対応している。
実験結果から,EchoPromptは4種類の因果言語モデルに対して,これらすべての設定に対して大幅な改善をもたらすことが示された。
これらの改善は、様々な数値推論(GSM8K、SVAMPなど)、読み理解(DROPなど)、論理推論(Coin Flippingなど)のタスクで観察される。
EchoPromptは平均して、code-davinci-002のZero-shot-CoTパフォーマンスを、数値タスクで5%、理解タスクで13%改善する。
本研究は,echopromptの有効性に寄与する要因をアブレーション研究を通じて検討し,原クエリとモデル生成版の両方が性能向上に寄与することを示す。
実験の結果,EchoPromptは文脈内学習性能を向上させる効果的な手法であることがわかった。
パフォーマンス向上を達成するために、さまざまなベースラインプロンプト戦略にechopromptを統合することを推奨する。 Language models are achieving impressive performance on various tasks by aggressively adopting inference-time prompting techniques, such as zero-shot and few-shot prompting. In this work, we introduce EchoPrompt, a simple yet effective approach that prompts the model to rephrase its queries before answering them. EchoPrompt is adapted for both zero-shot and few-shot in-context learning with standard and chain-of-thought prompting. Experimental results show that EchoPrompt yields substantial improvements across all these settings for four families of causal language models. These improvements are observed across various numerical reasoning (e.g. GSM8K, SVAMP), reading comprehension (e.g. DROP), and logical reasoning (e.g. Coin Flipping) tasks. On average, EchoPrompt improves the Zero-shot-CoT performance of code-davinci-002 by 5% in numerical tasks and 13% in reading comprehension tasks. We investigate the factors contributing to EchoPrompt's effectiveness through ablation studies, which reveal that both the original query and the model-generated rephrased version are instrumental in its performance gains. Our empirical results indicate that EchoPrompt is an effective technique that enhances in-context learning performance. We recommend incorporating EchoPrompt into various baseline prompting strategies to achieve performance boosts. | 翻訳日:2023-10-16 17:06:45 公開日:2023-10-13 |
# 多視点ステレオ画像マッチングの不確実性定量化のための内部信頼性の臨界解析 A Critical Analysis of Internal Reliability for Uncertainty Quantification of Dense Image Matching in Multi-view Stereo ( http://arxiv.org/abs/2309.09379v2 ) ライセンス: Link先を確認 | Debao Huang, Rongjun Qin | (参考訳) 今日では、フォトグラムから派生した点雲は、低コストと買収の柔軟性のため、多くの民間アプリケーションで広く使われている。
通常、測光点雲はライダー点雲のような参照データによって評価される。
しかし、参照データが入手できない場合、測光点雲の評価は困難である。
これらの点雲はアルゴリズム的に導出されるため、カメラネットワーク、シーン複雑性、高密度画像マッチング(dim)アルゴリズムによって精度や精度が著しく変化し、点当たり誤差を決定する標準誤差メートル法は存在しない。
カメラネットワークの内部信頼性の理論は、既知の測定誤差を仮定した3D点の誤差を理解するために用いられるバンドル調整(BA)の1次誤差推定によってよく研究されている。
しかし、DIMアルゴリズムの測定誤差は、各点が画素強度、テクスチャエントロピー、表面の滑らかさなどの要因によって決定される誤差関数を持つ程度に複雑である。
この複雑さにもかかわらず、導出点の後方信頼度を推定する過程、特に冗長性が存在する場合のマルチビューステレオ(MVS)設定において、いくつかの一般的な指標が存在する。
本稿では,LiDAR参照データを用いた空中斜めフォトグラムブロックを用いて,放射光収束,交叉角,DIMエネルギーなどの統計情報を含む,共通MVSフレームワーク内のいくつかの内部マッチングメトリクスを解析する。 Nowadays, photogrammetrically derived point clouds are widely used in many civilian applications due to their low cost and flexibility in acquisition. Typically, photogrammetric point clouds are assessed through reference data such as LiDAR point clouds. However, when reference data are not available, the assessment of photogrammetric point clouds may be challenging. Since these point clouds are algorithmically derived, their accuracies and precisions are highly varying with the camera networks, scene complexity, and dense image matching (DIM) algorithms, and there is no standard error metric to determine per-point errors. The theory of internal reliability of camera networks has been well studied through first-order error estimation of Bundle Adjustment (BA), which is used to understand the errors of 3D points assuming known measurement errors. However, the measurement errors of the DIM algorithms are intricate to an extent that every single point may have its error function determined by factors such as pixel intensity, texture entropy, and surface smoothness. Despite the complexity, there exist a few common metrics that may aid the process of estimating the posterior reliability of the derived points, especially in a multi-view stereo (MVS) setup when redundancies are present. In this paper, by using an aerial oblique photogrammetric block with LiDAR reference data, we analyze several internal matching metrics within a common MVS framework, including statistics in ray convergence, intersection angles, DIM energy, etc. | 翻訳日:2023-10-16 17:05:58 公開日:2023-10-13 |
# discoscmsによる3層問合せ応答 Answering Layer 3 queries with DiscoSCMs ( http://arxiv.org/abs/2309.09323v2 ) ライセンス: Link先を確認 | Heyang Gong | (参考訳) パール・コーサル・ヒエラルキー(PCH)にまたがる因果関係(因果関係、介入、反事実)に対処することは、現代の因果推論研究において中心的な課題である。
特に、反事実的な質問は、しばしば構造方程式の完全な知識を必要とするため、重大な課題となる。
本稿では,一貫性規則に起因した「textbf{the degeneracy problem」を同定する。
これを解決するために、構造因果モデル(SCM)と潜在的結果フレームワークの両方を拡張した「textit{Distribution-Consistency Structure Causal Models}」(DiscoSCM)が導入された。
パーソナライズされたインセンティブシナリオにおける潜在的な結果の相関パターンは、$p(y_x, y'_{x'})$で記述され、解明のケーススタディとして用いられる。
反事実はもはや退化しないが、決定不能のままである。
その結果、DiscoSCMには独立電位ノイズの状態が組み込まれている。
相同性を用いることで、反事実を識別することができる。
さらに、より洗練された結果が単位問題シナリオで達成される。
簡単に言うと、反事実をモデル化する場合は、「テストを受ける平均的な能力を持ち、幸運なことに、非常に高いスコアを得られる人を考えるべきである。もしこの人が同じ外部条件下でテストを再開した場合、彼は何のスコアを得るだろうか?例外的に高いスコアか平均スコアか?」を考えるべきである。
平均スコアを予測する場合、一貫性ルールに基づいて、基本的には従来のフレームワークよりもDiscoSCMを選択します。 Addressing causal queries across the Pearl Causal Hierarchy (PCH) (i.e., associational, interventional and counterfactual), which is formalized as \Layer{} Valuations, is a central task in contemporary causal inference research. Counterfactual questions, in particular, pose a significant challenge as they often necessitate a complete knowledge of structural equations. This paper identifies \textbf{the degeneracy problem} caused by the consistency rule. To tackle this, the \textit{Distribution-consistency Structural Causal Models} (DiscoSCMs) is introduced, which extends both the structural causal models (SCM) and the potential outcome framework. The correlation pattern of potential outcomes in personalized incentive scenarios, described by $P(y_x, y'_{x'})$, is used as a case study for elucidation. Although counterfactuals are no longer degenerate, they remain indeterminable. As a result, the condition of independent potential noise is incorporated into DiscoSCM. It is found that by adeptly using homogeneity, counterfactuals can be identified. Furthermore, more refined results are achieved in the unit problem scenario. In simpler terms, when modeling counterfactuals, one should contemplate: "Consider a person with average ability who takes a test and, due to good luck, achieves an exceptionally high score. If this person were to retake the test under identical external conditions, what score will he obtain? An exceptionally high score or an average score?" If your choose is predicting an average score, then you are essentially choosing DiscoSCM over the traditional frameworks based on the consistency rule. | 翻訳日:2023-10-16 17:05:35 公開日:2023-10-13 |
# LanguageMPC: 自律運転のための意思決定者としての大規模言語モデル LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving ( http://arxiv.org/abs/2310.03026v2 ) ライセンス: Link先を確認 | Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding | (参考訳) 既存の学習ベースの自動運転(ad)システムは、ハイレベルな情報の理解、レアなイベントへの一般化、解釈可能性の提供といった課題に直面している。
これらの問題に対処するため、この研究では、人間の常識的理解を必要とする複雑なADシナリオの意思決定コンポーネントとして、LLM(Large Language Models)を採用している。
我々は,LLMによる包括的推論を可能にする認知経路を考案し,LLM決定を動作可能な駆動コマンドに変換するアルゴリズムを開発した。
このアプローチを通じて、LLM決定はガイドパラメータ行列適応により低レベルコントローラとシームレスに統合される。
広汎な実験により,提案手法は単一車載タスクのベースラインアプローチを一貫して超えるだけでなく,LLMの常識的推論能力のおかげで,多車載協調さえも複雑な運転動作の処理に有効であることが示された。
本稿では, 安全性, 効率, 汎用性, 相互運用性の観点から, LLMを複雑なADシナリオに効果的に活用するための最初のステップを示す。
この分野での今後の研究のインスピレーションになることを期待しています。
プロジェクトページ: https://sites.google.com/view/llm-mpc Existing learning-based autonomous driving (AD) systems face challenges in comprehending high-level information, generalizing to rare events, and providing interpretability. To address these problems, this work employs Large Language Models (LLMs) as a decision-making component for complex AD scenarios that require human commonsense understanding. We devise cognitive pathways to enable comprehensive reasoning with LLMs, and develop algorithms for translating LLM decisions into actionable driving commands. Through this approach, LLM decisions are seamlessly integrated with low-level controllers by guided parameter matrix adaptation. Extensive experiments demonstrate that our proposed method not only consistently surpasses baseline approaches in single-vehicle tasks, but also helps handle complex driving behaviors even multi-vehicle coordination, thanks to the commonsense reasoning capabilities of LLMs. This paper presents an initial step toward leveraging LLMs as effective decision-makers for intricate AD scenarios in terms of safety, efficiency, generalizability, and interoperability. We aspire for it to serve as inspiration for future research in this field. Project page: https://sites.google.com/view/llm-mpc | 翻訳日:2023-10-16 16:56:37 公開日:2023-10-13 |
# umls知識を大規模言語モデルに統合する医療質問応答 Integrating UMLS Knowledge into Large Language Models for Medical Question Answering ( http://arxiv.org/abs/2310.02778v2 ) ライセンス: Link先を確認 | Rui Yang, Edison Marrese-Taylor, Yuhe Ke, Lechao Cheng, Qingyu Chen, Irene Li | (参考訳) 大規模言語モデル(llm)は強力なテキスト生成能力を示し、医療分野に前例のないイノベーションをもたらした。
LLMは医療分野での応用には大きな可能性を秘めているが、実際の臨床シナリオに適用すると、これらのモデルが確立した医療事実から逸脱したコンテンツを生成し、潜在的なバイアスを示す可能性があるため、大きな課題が示される。
本研究では,umls(unified medical language system)に基づく拡張llmフレームワークを開発し,医療コミュニティへのサービス向上を目指す。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
さらに,医師評価の基準を,事実性,完全性,可読性,関連度という4次元に基づいて定めている。
ChatGPT-3.5は、LiveQAテストセットに関する20の質問で医師の評価に使用される。
複数の医師がブラインドレビューを行い、生成内容の評価を行い、この枠組みが生成内容の事実性、完全性、および関連性を効果的に向上することを示した。
本研究は, UMLS 拡張 LLM の有効性を実証し, 医療質問応答における LLM の適用価値を明らかにする。 Large language models (LLMs) have demonstrated powerful text generation capabilities, bringing unprecedented innovation to the healthcare field. While LLMs hold immense promise for applications in healthcare, applying them to real clinical scenarios presents significant challenges, as these models may generate content that deviates from established medical facts and even exhibit potential biases. In our research, we develop an augmented LLM framework based on the Unified Medical Language System (UMLS), aiming to better serve the healthcare community. We employ LLaMa2-13b-chat and ChatGPT-3.5 as our benchmark models, and conduct automatic evaluations using the ROUGE Score and BERTScore on 104 questions from the LiveQA test set. Additionally, we establish criteria for physician-evaluation based on four dimensions: Factuality, Completeness, Readability and Relevancy. ChatGPT-3.5 is used for physician evaluation with 20 questions on the LiveQA test set. Multiple resident physicians conducted blind reviews to evaluate the generated content, and the results indicate that this framework effectively enhances the factuality, completeness, and relevance of generated content. Our research demonstrates the effectiveness of using UMLS-augmented LLMs and highlights the potential application value of LLMs in in medical question-answering. | 翻訳日:2023-10-16 16:56:19 公開日:2023-10-13 |
# MagicDrive: 横3次元形状制御によるストリートビュー生成 MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v3 ) ライセンス: Link先を確認 | Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu | (参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。
しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。
特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。
本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御を行う新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。
さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。
MagicDriveで高忠実なストリートビュー合成を実現し、ニュアンスな3D幾何学と様々なシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。 Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection. | 翻訳日:2023-10-16 16:55:39 公開日:2023-10-13 |
# マルチモーダル大言語モデルによるエンド・ツー・エンドの身体決定に向けて: GPT4-Vision による探索と超越 Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond ( http://arxiv.org/abs/2310.02071v2 ) ライセンス: Link先を確認 | Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Tianyu Liu, Baobao Chang | (参考訳) 本研究では,エージェントの具体的意思決定プロセスを改善する上で,MLLM(Multimodal Large Language Models)の可能性を検討する。
大きな言語モデル(LLM)はその高度な推論技術と広大な世界知識のために広く使われているが、GPT4-VisionのようなMLLMは視覚的理解と推論能力の向上を提供する。
我々は,最先端のMLLMがエンド・ツー・エンドで具体的意思決定を扱えるか,LLMとMLLMの連携が意思決定を促進するかを検討する。
これらの問題に対処するため,PCA-EVALと呼ばれる新しいベンチマークを導入し,知覚,認知,行動の観点から具体的意思決定を評価する。
さらに,マルチエージェント協調フレームワークであるhomesを提案する。llmがmllmとapiを活用して,インフォームド意思決定のためのマルチモーダル情報収集を可能にする。
GPT4-Visionモデルでは, 平均判定精度(+3%)において, GPT4-HOLMESを上回り, GPT4-HOLMESよりも高い結果が得られた。
しかし、この性能は最新のGPT4-Visionモデルのみであり、オープンソースのMLLMを26%上回っている。
GPT4-Visionのような強力なMLLMは、エンボディエージェントの意思決定を約束し、MLLM研究の新たな道筋を提供する。
コードとデータはhttps://github.com/pkunlp-icler/PCA-EVAL/.comで公開されている。 In this study, we explore the potential of Multimodal Large Language Models (MLLMs) in improving embodied decision-making processes for agents. While Large Language Models (LLMs) have been widely used due to their advanced reasoning skills and vast world knowledge, MLLMs like GPT4-Vision offer enhanced visual understanding and reasoning capabilities. We investigate whether state-of-the-art MLLMs can handle embodied decision-making in an end-to-end manner and whether collaborations between LLMs and MLLMs can enhance decision-making. To address these questions, we introduce a new benchmark called PCA-EVAL, which evaluates embodied decision-making from the perspectives of Perception, Cognition, and Action. Additionally, we propose HOLMES, a multi-agent cooperation framework that allows LLMs to leverage MLLMs and APIs to gather multimodal information for informed decision-making. We compare end-to-end embodied decision-making and HOLMES on our benchmark and find that the GPT4-Vision model demonstrates strong end-to-end embodied decision-making abilities, outperforming GPT4-HOLMES in terms of average decision accuracy (+3%). However, this performance is exclusive to the latest GPT4-Vision model, surpassing the open-source state-of-the-art MLLM by 26%. Our results indicate that powerful MLLMs like GPT4-Vision hold promise for decision-making in embodied agents, offering new avenues for MLLM research. Code and data are open at https://github.com/pkunlp-icler/PCA-EVAL/. | 翻訳日:2023-10-16 16:55:10 公開日:2023-10-13 |
# H-InDex: Dexterous Manipulationのための手書き表現を用いた視覚強化学習 H-InDex: Visual Reinforcement Learning with Hand-Informed Representations for Dexterous Manipulation ( http://arxiv.org/abs/2310.01404v2 ) ライセンス: Link先を確認 | Yanjie Ze, Yuyao Liu, Ruizhe Shi, Jiaxin Qin, Zhecheng Yuan, Jiashun Wang, Huazhe Xu | (参考訳) 人間の手は目覚ましいデクスター性を持ち、ロボット操作のインスピレーションの源となっている。
本研究では,強化学習を伴う難解な$\textbf{dex}$terous操作タスク($\textbf{h-index}$)を解決するために,人間の$\textbf{h}$and$\textbf{-in}$formed visual representation learningフレームワークを提案する。
私たちの枠組みは3つの段階からなる。
(i)3次元人手ポーズ推定による事前学習表現
(ii)自己教師付きキーポイント検出によるオフライン適応表現、及び
(iii)指数移動平均バッチノルムによる強化学習
最後の2つの段階は、事前訓練された表現の$0.36\%$パラメータを総じて変更するだけで、事前訓練からの知識が十分に維持される。
我々は12の難解な操作タスクを経験的に研究し、h-indexが強力なベースラインメソッドと最近の運動制御のためのvisual foundationモデルを大きく超えることを見出した。
コードはhttps://yanjieze.com/H-InDexで入手できる。 Human hands possess remarkable dexterity and have long served as a source of inspiration for robotic manipulation. In this work, we propose a human $\textbf{H}$and$\textbf{-In}$formed visual representation learning framework to solve difficult $\textbf{Dex}$terous manipulation tasks ($\textbf{H-InDex}$) with reinforcement learning. Our framework consists of three stages: (i) pre-training representations with 3D human hand pose estimation, (ii) offline adapting representations with self-supervised keypoint detection, and (iii) reinforcement learning with exponential moving average BatchNorm. The last two stages only modify $0.36\%$ parameters of the pre-trained representation in total, ensuring the knowledge from pre-training is maintained to the full extent. We empirically study 12 challenging dexterous manipulation tasks and find that H-InDex largely surpasses strong baseline methods and the recent visual foundation models for motor control. Code is available at https://yanjieze.com/H-InDex . | 翻訳日:2023-10-16 16:54:35 公開日:2023-10-13 |
# 反復Fusing Modality similarity Pathsによるユニバーサルマルチモーダルエンティティアライメント Universal Multi-modal Entity Alignment via Iteratively Fusing Modality Similarity Paths ( http://arxiv.org/abs/2310.05364v3 ) ライセンス: Link先を確認 | Bolin Zhu, Xiaoze Liu, Xin Mao, Zhuo Chen, Lingbing Guo, Tao Gui, Qi Zhang | (参考訳) エンティティアライメント(EA)の目的は、複数の知識グラフ(KG)から同等のエンティティペアを特定し、より包括的で統一されたKGを作成することである。
EA法の大部分はKGの構造的モダリティに重点を置いており、マルチモーダル情報の探索は行っていない。
いくつかのマルチモーダルEA手法がこの分野で良い試みをしている。
それでも、2つの欠点がある:(1)モダリティごとに複雑で異なるモデルを設計する一貫性のない非効率なモダリティモデリング、(2)EAにおけるモダリティの不均一性に起因する非効率なモダリティ融合。
これらの課題に対処するため,(1) MSP, エンティティとモダリティノードを接続して複数のモダリティを表現する経路を構築することでアライメントプロセスを単純化する統一モデリング手法, (2) IRF, 様々なモダリティからの情報を情報担体として効果的に結合する反復融合手法の2つの主要なコンポーネントからなるPathFusionを提案する。
実世界のデータセットにおける実験結果は、hit@1で22.4%-28.9%、mrで0.194-0.245、最先端法よりもパスフュージョンが優れていることを示している。 The objective of Entity Alignment (EA) is to identify equivalent entity pairs from multiple Knowledge Graphs (KGs) and create a more comprehensive and unified KG. The majority of EA methods have primarily focused on the structural modality of KGs, lacking exploration of multi-modal information. A few multi-modal EA methods have made good attempts in this field. Still, they have two shortcomings: (1) inconsistent and inefficient modality modeling that designs complex and distinct models for each modality; (2) ineffective modality fusion due to the heterogeneous nature of modalities in EA. To tackle these challenges, we propose PathFusion, consisting of two main components: (1) MSP, a unified modeling approach that simplifies the alignment process by constructing paths connecting entities and modality nodes to represent multiple modalities; (2) IRF, an iterative fusion method that effectively combines information from different modalities using the path as an information carrier. Experimental results on real-world datasets demonstrate the superiority of PathFusion over state-of-the-art methods, with 22.4%-28.9% absolute improvement on Hits@1, and 0.194-0.245 absolute improvement on MRR. | 翻訳日:2023-10-16 16:48:29 公開日:2023-10-13 |
# ストリーミングイベントシーケンスのための瞬時時間点処理 Prompt-augmented Temporal Point Process for Streaming Event Sequence ( http://arxiv.org/abs/2310.04993v2 ) ライセンス: Link先を確認 | Siqiao Xue, Yan Wang, Zhixuan Chu, Xiaoming Shi, Caigao Jiang, Hongyan Hao, Gangwei Jiang, Xiaoyun Feng, James Y. Zhang, Jun Zhou | (参考訳) neural temporal point process(tpp)は、web上のユーザアクティビティや金融取引など、継続的なイベントシーケンスをモデリングするための一般的なパラダイムである。
現実のアプリケーションでは、イベントデータは典型的には \emph{streaming} 形式で受信される。
さらに、emph{privacy and memory constraints} は実践的なシナリオで一般的に見られ、課題をさらに複雑にしている。
したがって、ストリーミングイベントシーケンスを学習するためのTPPの継続的な監視は、重要でありながら未探索の課題である。
我々の研究論文は、現実的な制約の下で破滅的な忘れをすることなく連続的なタスク列を学習できるモデルである連続学習(CL)を採用することで、この課題に対処する。
これに対応して, ベースTPPを連続的な検索プロンプトプールに統合することにより, 単純かつ効果的なフレームワークである PromptTPP\footnote{Our code is available at {\small \url{ https://github.com/yanSann/PromptTPP}}} を提案する。
プロンプト、小さな学習可能なパラメータはメモリ空間に格納され、ベースTPPと共同で最適化され、過去の例やタスク固有の属性をバッファリングすることなく、モデルがイベントストリームをシーケンシャルに学習することを保証する。
本稿では,PromptTPPが3つの実際のユーザ行動データセットに対して一貫して最先端のパフォーマンスを実現するイベントストリームをモデル化するための,新しい,現実的な実験環境を提案する。 Neural Temporal Point Processes (TPPs) are the prevalent paradigm for modeling continuous-time event sequences, such as user activities on the web and financial transactions. In real-world applications, event data is typically received in a \emph{streaming} manner, where the distribution of patterns may shift over time. Additionally, \emph{privacy and memory constraints} are commonly observed in practical scenarios, further compounding the challenges. Therefore, the continuous monitoring of a TPP to learn the streaming event sequence is an important yet under-explored problem. Our work paper addresses this challenge by adopting Continual Learning (CL), which makes the model capable of continuously learning a sequence of tasks without catastrophic forgetting under realistic constraints. Correspondingly, we propose a simple yet effective framework, PromptTPP\footnote{Our code is available at {\small \url{ https://github.com/yanyanSann/PromptTPP}}}, by integrating the base TPP with a continuous-time retrieval prompt pool. The prompts, small learnable parameters, are stored in a memory space and jointly optimized with the base TPP, ensuring that the model learns event streams sequentially without buffering past examples or task-specific attributes. We present a novel and realistic experimental setup for modeling event streams, where PromptTPP consistently achieves state-of-the-art performance across three real user behavior datasets. | 翻訳日:2023-10-16 16:47:37 公開日:2023-10-13 |
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法 IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v3 ) ライセンス: Link先を確認 | Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang | (参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。
しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。
従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。
ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。
堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。
実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。
さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。 Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O. | 翻訳日:2023-10-16 16:47:06 公開日:2023-10-13 |
# ProGO: 確率的グローバル最適化 ProGO: Probabilistic Global Optimizer ( http://arxiv.org/abs/2310.04457v2 ) ライセンス: Link先を確認 | Xinyu Zhang, Sujit Ghosh | (参考訳) グローバル最適化の分野では、多くの既存のアルゴリズムは、非凸目標関数と高い計算複雑性や勾配情報の適用不可能によって生じる課題に直面している。
これらの制限は初期条件に対する感受性によって悪化し、しばしば準最適解や収束に失敗する。
これはメタヒューリスティックアルゴリズムが様々な最適化手法を融合させ、その効率と堅牢性を向上させるよう設計した場合でも当てはまる。
これらの課題に対処するため、我々は、いくつかの穏やかな正規性条件下でグローバル・オプティマに収束することを示す多次元統合ベース手法を開発した。
我々の確率論的アプローチは勾配の利用を必要とせず、新鮮オプティマ分布のニュアンス特性に根ざした数学的に厳密な収束フレームワークを基礎としている。
多次元積分の問題を緩和するために,グローバルな最適分布を近似するために用いられる初期最適分布からサンプルを生成する際に,幾何収束率を満足する潜時スライスサンプリング器を開発した。
提案された確率的グローバルオプティマイザ(progo)は、任意の次元の領域で定義される任意の連続関数のグローバルオプティマを近似するスケーラブルな統一フレームワークを提供する。
有限大域的オプティマを持つ)様々な人気のある非凸テスト関数を横断するプロゴの実証的な例から、提案されたアルゴリズムは、グラデーションベース、ゼロ次勾配フリー、ベイズ最適化法を含む既存の多くの最新手法よりも、後悔の値と収束速度の点で優れていることが分かる。
しかし,本手法は計算コストの高い関数には適さない可能性があることに留意すべきである。 In the field of global optimization, many existing algorithms face challenges posed by non-convex target functions and high computational complexity or unavailability of gradient information. These limitations, exacerbated by sensitivity to initial conditions, often lead to suboptimal solutions or failed convergence. This is true even for Metaheuristic algorithms designed to amalgamate different optimization techniques to improve their efficiency and robustness. To address these challenges, we develop a sequence of multidimensional integration-based methods that we show to converge to the global optima under some mild regularity conditions. Our probabilistic approach does not require the use of gradients and is underpinned by a mathematically rigorous convergence framework anchored in the nuanced properties of nascent optima distribution. In order to alleviate the problem of multidimensional integration, we develop a latent slice sampler that enjoys a geometric rate of convergence in generating samples from the nascent optima distribution, which is used to approximate the global optima. The proposed Probabilistic Global Optimizer (ProGO) provides a scalable unified framework to approximate the global optima of any continuous function defined on a domain of arbitrary dimension. Empirical illustrations of ProGO across a variety of popular non-convex test functions (having finite global optima) reveal that the proposed algorithm outperforms, by order of magnitude, many existing state-of-the-art methods, including gradient-based, zeroth-order gradient-free, and some Bayesian Optimization methods, in term regret value and speed of convergence. It is, however, to be noted that our approach may not be suitable for functions that are expensive to compute. | 翻訳日:2023-10-16 16:46:21 公開日:2023-10-13 |
# ヒューマンモビリティ質問回答(可視化論文) Human Mobility Question Answering (Vision Paper) ( http://arxiv.org/abs/2310.04443v2 ) ライセンス: Link先を確認 | Hao Xue, Flora D. Salim | (参考訳) 質問応答(QA)システムは、与えられた知識源(例えば、視覚的質問応答の画像)に基づいて質問に答えることを学ぶことができるため、人工知能コミュニティから多くの注目を集めている。
しかし、人間の移動データを用いた質問応答システムの研究は未定である。
ヒューマンモビリティデータのマイニングは、スマートシティ計画、パンデミック管理、パーソナライズドレコメンデーションシステムなど、さまざまなアプリケーションにおいて不可欠である。
本稿では,このギャップに対処し,人間の移動性質問応答(MobQA)という新しい課題を導入することを目的とする。
このタスクの目的は、インテリジェントシステムがモビリティデータから学習し、関連する質問に答えることである。
この課題は、移動予測研究における新たなパラダイム変化を示し、さらに人間の移動推薦システムの研究を促進する。
この新たな研究テーマをより良く支持するため,本論文では,データセットの初期設計と導入したmobqaタスクのためのディープラーニングモデルフレームワークを提案する。
本稿では,人間のモビリティ研究と質問応答研究における新たな洞察と新たな方向性を提供することを期待する。 Question answering (QA) systems have attracted much attention from the artificial intelligence community as they can learn to answer questions based on the given knowledge source (e.g., images in visual question answering). However, the research into question answering systems with human mobility data remains unexplored. Mining human mobility data is crucial for various applications such as smart city planning, pandemic management, and personalised recommendation system. In this paper, we aim to tackle this gap and introduce a novel task, that is, human mobility question answering (MobQA). The aim of the task is to let the intelligent system learn from mobility data and answer related questions. This task presents a new paradigm change in mobility prediction research and further facilitates the research of human mobility recommendation systems. To better support this novel research topic, this vision paper also proposes an initial design of the dataset and a potential deep learning model framework for the introduced MobQA task. We hope that this paper will provide novel insights and open new directions in human mobility research and question answering research. | 翻訳日:2023-10-16 16:45:51 公開日:2023-10-13 |
# パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習 Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation ( http://arxiv.org/abs/2310.03986v2 ) ライセンス: Link先を確認 | Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif | (参考訳) マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用する。
データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対してマルチモーダルシステムを堅牢にすることが望ましい。
しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。
欠落モードに対するロバスト性を実現するために,事前学習されたマルチモーダルネットワークに対する簡易かつパラメータ効率の良い適応手順を提案する。
特に,中間的特徴の低位適応と変調を生かして,欠落したモダリティを補償する。
このような適応によって、モダリティの欠如と、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークを上回るパフォーマンス低下が部分的に橋渡しできることを実証する。
提案された適応は極めて少数のパラメータを必要とする(例:ほとんどの実験では総パラメータの0.7%未満)。
rgb-thermalおよびrgb-depthセマンティックセグメンテーション、マルチモーダルマテリアルセグメンテーション、マルチモーダル感情分析タスクのための多様なデータセットを用いて、提案手法のロバスト性を強調した実験を行った。
提案手法は,様々なタスクやデータセットにまたがる汎用性を示し,モダリティの欠如した頑健なマルチモーダル学習手法よりも優れている。 Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose simple and parameter-efficient adaptation procedures for pretrained multimodal networks. In particular, we exploit low-rank adaptation and modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 0.7% of the total parameters in most experiments). We conduct a series of experiments to highlight the robustness of our proposed method using diverse datasets for RGB-thermal and RGB-Depth semantic segmentation, multimodal material segmentation, and multimodal sentiment analysis tasks. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities. | 翻訳日:2023-10-16 16:45:34 公開日:2023-10-13 |
# SmoothLLM: 大規模な言語モデルを脱獄攻撃から守る SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2310.03684v2 ) ライセンス: Link先を確認 | Alexander Robey and Eric Wong and Hamed Hassani and George J. Pappas | (参考訳) 大きな言語モデル(LLM)を人間の価値観に合わせる努力にもかかわらず、GPT、Llama、Claude、PaLMといった広く使われているLLMはジェイルブレイク攻撃の影響を受けやすい。
この脆弱性に対処するために,LLMに対するジェイルブレーキング攻撃を軽減するために設計された最初のアルゴリズムであるSmoothLLMを提案する。
敵が生成したプロンプトが文字レベルの変更に対して脆弱であることから,我々はまず入力プロンプトの複数のコピーをランダムに摂動させ,対応する予測を集約して敵の入力を検出する。
SmoothLLMは、多くの人気のあるLCMの攻撃成功率を1パーセント以下に減らし、不要な保守性を避け、攻撃緩和の保証を認める。
さらに、我々の防御は、既存の攻撃よりも指数関数的に少ないクエリを使用し、あらゆるllmと互換性がある。 Despite efforts to align large language models (LLMs) with human values, widely-used LLMs such as GPT, Llama, Claude, and PaLM are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks on LLMs. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense first randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. SmoothLLM reduces the attack success rate on numerous popular LLMs to below one percentage point, avoids unnecessary conservatism, and admits provable guarantees on attack mitigation. Moreover, our defense uses exponentially fewer queries than existing attacks and is compatible with any LLM. | 翻訳日:2023-10-16 16:45:03 公開日:2023-10-13 |
# テキスト分類のための大規模言語モデルを用いた合成データ生成:可能性と限界 Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations ( http://arxiv.org/abs/2310.07849v2 ) ライセンス: Link先を確認 | Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin | (参考訳) 高品質なトレーニングデータの収集とキュレーションは、優れたパフォーマンスを持つテキスト分類モデルを開発する上で重要であるが、しばしばかなりのコストと時間投資に関係している。
研究者は最近、代替アプローチとして大規模な言語モデル(LLM)を使用して合成データセットを生成する方法を模索している。
しかし, モデル学習支援におけるLLM生成合成データの有効性は, 異なる分類課題間で不一致である。
本研究は,LLM合成データの有効性を適度に評価する要因を理解するため,これらの合成データに基づいてトレーニングされたモデルの性能が,分類の主観性とどう異なるかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づくモデルの性能と負の相関関係があることが示唆された。
我々は、合成データ生成にLLMを活用する可能性と限界について、我々の研究の意義について論じる。 The collection and curation of high-quality training data is crucial for developing text classification models with superior performance, but it is often associated with significant costs and time investment. Researchers have recently explored using large language models (LLMs) to generate synthetic datasets as an alternative approach. However, the effectiveness of the LLM-generated synthetic data in supporting model training is inconsistent across different classification tasks. To better understand factors that moderate the effectiveness of the LLM-generated synthetic data, in this study, we look into how the performance of models trained on these synthetic data may vary with the subjectivity of classification. Our results indicate that subjectivity, at both the task level and instance level, is negatively associated with the performance of the model trained on synthetic data. We conclude by discussing the implications of our work on the potential and limitations of leveraging LLM for synthetic data generation. | 翻訳日:2023-10-16 16:36:22 公開日:2023-10-13 |
# 情報理論分布の多様化によるフェデレーション一般化 Federated Generalization via Information-Theoretic Distribution Diversification ( http://arxiv.org/abs/2310.07171v3 ) ライセンス: Link先を確認 | Zheshun Wu, Zenglin Xu, Dun Zeng, Qifan Wang | (参考訳) Federated Learning (FL)は、直接的なデータ共有を伴わない協調モデルトレーニングの能力により、人気が高まっている。
しかし、非独立分散(非iid)チャレンジとしばしば呼ばれるクライアント間のローカルなデータ分散の差は、flの一般化効果にとって大きな障害となっている。
このシナリオは、すべてのクライアントがトレーニングプロセスに参加していない場合、不安定なネットワーク接続や計算能力の制限などにより、さらに複雑になる。
これは、訓練されたモデルの一般化能力の評価を大幅に複雑にする。
近年, 多様な分布を持つクライアントの未確認データに関する一般化のギャップが注目されているが, 参加クライアントのトレーニング分布と非参加クライアントの試験分布との相違は概ね見過ごされている。
そこで本稿では,FLのための情報理論の一般化フレームワークについて紹介する。
具体的には、局所分布の情報エントロピーを評価して一般化誤差を定量化し、これらの分布全体の不一致を識別する。
導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。
これらの革新は、より多様なクライアントデータ分布を包含することで、flの一般化を促進することを目的としている。
提案手法の有効性を再確認し,理論的構成とシームレスに一致させた。 Federated Learning (FL) has surged in prominence due to its capability of collaborative model training without direct data sharing. However, the vast disparity in local data distributions among clients, often termed the non-Independent Identically Distributed (non-IID) challenge, poses a significant hurdle to FL's generalization efficacy. The scenario becomes even more complex when not all clients participate in the training process, a common occurrence due to unstable network connections or limited computational capacities. This can greatly complicate the assessment of the trained models' generalization abilities. While a plethora of recent studies has centered on the generalization gap pertaining to unseen data from participating clients with diverse distributions, the divergence between the training distributions of participating clients and the testing distributions of non-participating ones has been largely overlooked. In response, our paper unveils an information-theoretic generalization framework for FL. Specifically, it quantifies generalization errors by evaluating the information entropy of local distributions and discerning discrepancies across these distributions. Inspired by our deduced generalization bounds, we introduce a weighted aggregation approach and a duo of client selection strategies. These innovations aim to bolster FL's generalization prowess by encompassing a more varied set of client data distributions. Our extensive empirical evaluations reaffirm the potency of our proposed methods, aligning seamlessly with our theoretical construct. | 翻訳日:2023-10-16 16:36:08 公開日:2023-10-13 |
# 大規模言語モデルの推論高速化のためのスパース微調整 Sparse Fine-tuning for Inference Acceleration of Large Language Models ( http://arxiv.org/abs/2310.06927v2 ) ライセンス: Link先を確認 | Eldar Kurtic, Denis Kuznedelev, Elias Frantar, Michael Goin, Dan Alistarh | (参考訳) 本研究では,大規模言語モデル (LLM) の高精度な細粒度調整の問題,すなわち特殊タスクにおける微粒化事前学習の問題点について考察する。
精度面では、標準的な損失に基づく微調整は、特に高頻度での精度回復に失敗する可能性がある。
そこで本研究では,L2をベースとした蒸留手法であるSquareHeadを,全モデルタイプにわたって,高頻度でも正確な回収が可能な蒸留タイプの損失を詳細に検討した。
実用的効率面では、CPUとGPUの両方のランタイムにおいて、スパースLSMをスパーシティを利用して高速に実行できることが示される。
一方,メモリバウンドLLMでは,メモリ帯域幅の削減にも利用することができる。
我々は,T5(言語翻訳),Whisper(音声翻訳),オープンGPT-type(テキスト生成用MPT)において,間隔による高速化を示すエンドツーエンドの結果を示した。
MPTテキスト生成では,スパース微調整が精度低下なしに75%の間隔に到達し,CPUとGPUの双方で注目すべきエンドツーエンドの高速化を実現し,量子化アプローチとの互換性も強調した。
第6節で結果を再現するためのモデルとソフトウェアを提供する。 We consider the problem of accurate sparse fine-tuning of large language models (LLMs), that is, fine-tuning pretrained LLMs on specialized tasks, while inducing sparsity in their weights. On the accuracy side, we observe that standard loss-based fine-tuning may fail to recover accuracy, especially at high sparsities. To address this, we perform a detailed study of distillation-type losses, determining an L2-based distillation approach we term SquareHead which enables accurate recovery even at higher sparsities, across all model types. On the practical efficiency side, we show that sparse LLMs can be executed with speedups by taking advantage of sparsity, for both CPU and GPU runtimes. While the standard approach is to leverage sparsity for computational reduction, we observe that in the case of memory-bound LLMs sparsity can also be leveraged for reducing memory bandwidth. We exhibit end-to-end results showing speedups due to sparsity, while recovering accuracy, on T5 (language translation), Whisper (speech translation), and open GPT-type (MPT for text generation). For MPT text generation, we show for the first time that sparse fine-tuning can reach 75% sparsity without accuracy drops, provide notable end-to-end speedups for both CPU and GPU inference, and highlight that sparsity is also compatible with quantization approaches. Models and software for reproducing our results are provided in Section 6. | 翻訳日:2023-10-16 16:35:27 公開日:2023-10-13 |
# 解離アルゴリズムを用いた量子状態トモグラフィ Quantum state tomography with disentanglement algorithm ( http://arxiv.org/abs/2310.06273v2 ) ライセンス: Link先を確認 | Juan Yao | (参考訳) 本研究では, 量子状態再構成プロセスについて, ディコンタングルメントアルゴリズムに基づく検討を行った。
変動量子回路を用いて、量子状態を計算ゼロ状態の積に分解する。
ゼロ状態の逆の進化は、全体的な位相まで量子状態を再構成する。
キュービットを1つずつ順次切り離すことで、必要な測定量を1つのキュービット測定で削減する。
乱数状態の再構成に関する提案とともに, 量子回路の異種化を最適化する実験を行った。
実験的な実装を容易にするために,離散量子ゲートを限定した量子回路設計のための強化学習も行う。
我々の方法は普遍的であり、量子状態に特定のアンサッツや制約を課さない。 In this work, we report on a novel quantum state reconstruction process based on the disentanglement algorithm. Using variational quantum circuits, we disentangle the quantum state to a product of computational zero states. Inverse evolution of the zero states reconstructs the quantum state up to an overall phase. By sequentially disentangling the qubit one by one, we reduce the required measurements with only single qubit measurement. Demonstrations with our proposal for the reconstruction of the random states are presented where variational quantum circuit is optimized by disentangling process. To facilitate experimental implementation, we also employ reinforcement learning for quantum circuit design with limited discrete quantum gates. Our method is universal and imposes no specific ansatz or constrain on the quantum state. | 翻訳日:2023-10-16 16:34:58 公開日:2023-10-13 |
# Geom-Erasing:拡散モデルにおける不入概念の幾何学的除去 Geom-Erasing: Geometry-Driven Removal of Implicit Concept in Diffusion Models ( http://arxiv.org/abs/2310.05873v3 ) ライセンス: Link先を確認 | Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok | (参考訳) パーソナライズされたデータセットによる拡散モデルの微調整は、下流タスク全体の生成品質を改善する方法として認識されているが、ウォーターマークやqrコードといった意図しない概念を不注意に生成することが多い。
既存のソリューションは、主にモデルが実際に認識できない概念を認識する能力に依存しているため、意図せず学習された暗黙の概念を取り除くことに苦しむ。
本研究では,これらの概念の幾何学的情報をテキスト領域にエンコードするために,アクセシブルな分類器や検出器モデルを用いて暗黙的な概念をうまく除去する手法であるGeom-Erasingを紹介する。
さらに,3つの暗黙的な概念(ウォーターマーク,qrコード,テキスト)を付与した,新たな画像テキストデータセットである暗黙的概念を提案する。
実験の結果,geom-erasingは暗黙的な概念を識別するだけでなく,熟達して根絶することを示し,既存の手法よりも大きな改善が見られた。
幾何学的情報の統合は拡散モデルにおける暗黙的な概念の正確な除去において重要な進歩を示している。 Fine-tuning diffusion models through personalized datasets is an acknowledged method for improving generation quality across downstream tasks, which, however, often inadvertently generates unintended concepts such as watermarks and QR codes, attributed to the limitations in image sources and collecting methods within specific downstream tasks. Existing solutions suffer from eliminating these unintentionally learned implicit concepts, primarily due to the dependency on the model's ability to recognize concepts that it actually cannot discern. In this work, we introduce Geom-Erasing, a novel approach that successfully removes the implicit concepts with either an additional accessible classifier or detector model to encode geometric information of these concepts into text domain. Moreover, we propose Implicit Concept, a novel image-text dataset imbued with three implicit concepts (i.e., watermarks, QR codes, and text) for training and evaluation. Experimental results demonstrate that Geom-Erasing not only identifies but also proficiently eradicates implicit concepts, revealing a significant improvement over the existing methods. The integration of geometric information marks a substantial progression in the precise removal of implicit concepts in diffusion models. | 翻訳日:2023-10-16 16:34:49 公開日:2023-10-13 |
# DANet: 効率的な変形性注意ネットワークによる小型物体検出の実現 DANet: Enhancing Small Object Detection through an Efficient Deformable Attention Network ( http://arxiv.org/abs/2310.05768v2 ) ライセンス: Link先を確認 | Md Sohag Mia, Abdullah Al Bary Voban, Abu Bakor Hayat Arnob, Abdu Naim, Md Kawsar Ahmed, Md Shariful Islam | (参考訳) 欠陥やひび割れなどの製造環境における小型物体の効率的かつ正確な検出は、製品の品質と安全性の確保に不可欠である。
この問題に対処するため,我々はより高速なr-cnnと最先端の手法を組み合わせた包括的戦略を提案した。
高速R-CNNとFeature Pyramid Networkを組み合わせることで、製造環境に固有のマルチスケール機能を効率的に扱うことができる。
さらにデフォルマブルネットは、欠陥の幾何学的バリエーションを歪曲し、適合させるために使われ、極小および複雑な特徴を検出できる精度をもたらす。
そこで我々は,ResNet50ネットワークの各ブロックにConvolutional Block Attention Moduleと呼ばれるアテンション機構を組み込んで,情報的特徴を選択的に強調し,あまり役に立たないものを抑制する。
その後roiアライメントを導入し、より細かい領域間アライメントのためにroiプールを置き換え、最終的に焦点損失の統合はクラス不均衡を効果的に処理します。
NEU-DET と Pascal のVOC データセット上でのモデルの厳密な評価は、その頑健な性能と一般化能力を示している。
neu-detデータセットでは,鋼材の欠陥を深く理解し,各種欠陥の同定に最先端の精度が得られた。
同時に、Pascal VOCデータセットで評価すると、複雑なシーンや小さなシーンにおいて、幅広いカテゴリにまたがる物体を検出する能力を示す。 Efficient and accurate detection of small objects in manufacturing settings, such as defects and cracks, is crucial for ensuring product quality and safety. To address this issue, we proposed a comprehensive strategy by synergizing Faster R-CNN with cutting-edge methods. By combining Faster R-CNN with Feature Pyramid Network, we enable the model to efficiently handle multi-scale features intrinsic to manufacturing environments. Additionally, Deformable Net is used that contorts and conforms to the geometric variations of defects, bringing precision in detecting even the minuscule and complex features. Then, we incorporated an attention mechanism called Convolutional Block Attention Module in each block of our base ResNet50 network to selectively emphasize informative features and suppress less useful ones. After that we incorporated RoI Align, replacing RoI Pooling for finer region-of-interest alignment and finally the integration of Focal Loss effectively handles class imbalance, crucial for rare defect occurrences. The rigorous evaluation of our model on both the NEU-DET and Pascal VOC datasets underscores its robust performance and generalization capabilities. On the NEU-DET dataset, our model exhibited a profound understanding of steel defects, achieving state-of-the-art accuracy in identifying various defects. Simultaneously, when evaluated on the Pascal VOC dataset, our model showcases its ability to detect objects across a wide spectrum of categories within complex and small scenes. | 翻訳日:2023-10-16 16:34:26 公開日:2023-10-13 |
# ViTはあらゆる場所にある:異なる領域における視覚変換器の総合的な研究 ViTs are Everywhere: A Comprehensive Study Showcasing Vision Transformers in Different Domain ( http://arxiv.org/abs/2310.05664v2 ) ライセンス: Link先を確認 | Md Sohag Mia, Abu Bakor Hayat Arnob, Abdu Naim, Abdullah Al Bary Voban, Md Shariful Islam | (参考訳) トランスフォーマー設計は自然言語処理タスクのデファクトスタンダードである。
自然言語処理におけるトランスフォーマーの設計の成功は、近年、コンピュータビジョン分野の研究者の関心を遠ざけている。
畳み込みニューラルネットワーク(CNN)と比較して、視覚変換器(ViT)は、多くの視覚問題に対してより人気があり支配的なソリューションになりつつある。
トランスフォーマーベースのモデルは、畳み込みニューラルネットワークやリカレントニューラルネットワークといった他のタイプのネットワークを、さまざまなビジュアルベンチマークで上回っている。
本研究では、異なるジョブに分割し、そのメリットと欠点を検証し、様々な視覚トランスフォーマーモデルを評価する。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服することができる。
この調査の目的は、CVにおけるViTsの最初の使用を示すことである。
第1段階では、VTが適切である様々なCVアプリケーションを分類する。
画像分類、オブジェクト識別、画像分割、ビデオトランスフォーマー、画像デノーミング、NASはすべてCVアプリケーションである。
次のステップは、各領域の最先端を分析し、現在利用可能なモデルを特定することです。
また,多くのオープン研究課題と今後の研究可能性について概説する。 Transformer design is the de facto standard for natural language processing tasks. The success of the transformer design in natural language processing has lately piqued the interest of researchers in the domain of computer vision. When compared to Convolutional Neural Networks (CNNs), Vision Transformers (ViTs) are becoming more popular and dominant solutions for many vision problems. Transformer-based models outperform other types of networks, such as convolutional and recurrent neural networks, in a range of visual benchmarks. We evaluate various vision transformer models in this work by dividing them into distinct jobs and examining their benefits and drawbacks. ViTs can overcome several possible difficulties with convolutional neural networks (CNNs). The goal of this survey is to show the first use of ViTs in CV. In the first phase, we categorize various CV applications where ViTs are appropriate. Image classification, object identification, image segmentation, video transformer, image denoising, and NAS are all CV applications. Our next step will be to analyze the state-of-the-art in each area and identify the models that are currently available. In addition, we outline numerous open research difficulties as well as prospective research possibilities. | 翻訳日:2023-10-16 16:34:00 公開日:2023-10-13 |
# 言語モデルは類推的推論を学べるか?
トレーニング目標の検討と人的パフォーマンスとの比較 Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance ( http://arxiv.org/abs/2310.05597v2 ) ライセンス: Link先を確認 | Molly R. Petersen, Lonneke van der Plas | (参考訳) アナロジーは、nlpにおける単語埋め込みを評価する一般的な方法であるが、アナロジー推論がそれ自体が学習できるタスクであるかどうかを調べることも興味深い。
本稿では,NLPベンチマークでよく用いられるものよりも,ヒトの類似推論を評価するのによく用いられるアナロジーに特化して,基本的なアナロジー推論を学習する方法をいくつか試す。
実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
さらに、モデルとデータセットを人間のベースラインと比較すると、トレーニング後にモデルが人間のパフォーマンスに近づくことが分かります。 While analogies are a common way to evaluate word embeddings in NLP, it is also of interest to investigate whether or not analogical reasoning is a task in itself that can be learned. In this paper, we test several ways to learn basic analogical reasoning, specifically focusing on analogies that are more typical of what is used to evaluate analogical reasoning in humans than those in commonly used NLP benchmarks. Our experiments find that models are able to learn analogical reasoning, even with a small amount of data. We additionally compare our models to a dataset with a human baseline, and find that after training, models approach human performance. | 翻訳日:2023-10-16 16:33:42 公開日:2023-10-13 |
# Intelligent Tutoring System: ソフトウェア工学とプログラミング教育をリンクした経験 Intelligent Tutoring System: Experience of Linking Software Engineering and Programming Teaching ( http://arxiv.org/abs/2310.05472v2 ) ライセンス: Link先を確認 | Zhiyu Fan, Yannic Noller, Ashish Dandekar, Abhik Roychoudhury | (参考訳) コンピュータサイエンスの学生の増加は、学生に高品質なフィードバックを提供するために、初年のプログラミングコースの講師や講師をその限界まで押し付けている。
自動グレーディングを処理する既存のシステムは、主にプログラミングの割り当てのコンテキストにおけるテストケースの実行の自動化に焦点を当てている。
しかし、学生の誤りに関するカスタマイズされたフィードバックは提供できないため、教師の助けに取って代わることはできない。
近年, 自動グルーピングとフィードバック生成の分野では, 自動修理技術を用いてこの問題に対処する研究が行われているが, これまでのところ, 我々の知る限りでは, 実際の展開は行われていない。
近年の研究成果を踏まえて,自動フィードバックと採点機能を備えたインテリジェントな指導システムを構築した。
さらに,3年制の大学生を対象に,今後数年間で段階的なシステム開発を指導するソフトウェア工学コースを設計した。
毎年,学生は,現在の実施を改善するための貢献をすると同時に,初年度までに現在のシステムをデプロイすることができる。
本稿では,教育概念,知的指導システムアーキテクチャ,利害関係者との体験について述べる。
学生のためのこのソフトウェアエンジニアリングプロジェクトは、システム利用者が社内で利用可能である(最初のプログラミングコースの学生、家庭教師、講師など)という重要な利点を持っている。
これにより、要件エンジニアリングセッションの組織化や、“デプロイする”ソフトウェアプロジェクトへの貢献に対する意識の構築を支援します。
この多年制の授業では、初年度のプログラミングコースで利用できるチューリングシステムを段階的に構築した。
さらに、最新の研究成果を教育のためのAPRに統合できるプラットフォームを代表している。 The increasing number of computer science students pushes lecturers and tutors of first-year programming courses to their limits to provide high-quality feedback to the students. Existing systems that handle automated grading primarily focus on the automation of test case executions in the context of programming assignments. However, they cannot provide customized feedback about the students' errors, and hence, cannot replace the help of tutors. While recent research works in the area of automated grading and feedback generation address this issue by using automated repair techniques, so far, to the best of our knowledge, there has been no real-world deployment of such techniques. Based on the research advances in recent years, we have built an intelligent tutoring system that has the capability of providing automated feedback and grading. Furthermore, we designed a Software Engineering course that guides third-year undergraduate students in incrementally developing such a system over the coming years. Each year, students will make contributions that improve the current implementation, while at the same time, we can deploy the current system for usage by first year students. This paper describes our teaching concept, the intelligent tutoring system architecture, and our experience with the stakeholders. This software engineering project for the students has the key advantage that the users of the system are available in-house (i.e., students, tutors, and lecturers from the first-year programming courses). This helps organize requirements engineering sessions and builds awareness about their contribution to a "to be deployed" software project. In this multi-year teaching effort, we have incrementally built a tutoring system that can be used in first-year programming courses. Further, it represents a platform that can integrate the latest research results in APR for education. | 翻訳日:2023-10-16 16:33:32 公開日:2023-10-13 |
# 脆弱性検出のための因果的ディープラーニング Towards Causal Deep Learning for Vulnerability Detection ( http://arxiv.org/abs/2310.07958v2 ) ライセンス: Link先を確認 | Md Mahbubur Rahman, Ira Ceka, Chengzhi Mao, Saikat Chakraborty, Baishakhi Ray, and Wei Le | (参考訳) ディープラーニングの脆弱性検出は近年、有望な結果を示している。
しかし、実際に非常に有用であることを妨げる重要な課題は、モデルが摂動下では堅牢ではなく、例えば実世界の未確認プロジェクトにトレーニングされたモデルを適用するなど、アウト・オブ・ディストリビューション(OOD)データに対してうまく一般化できないことである。
これは、このモデルがラベルとの相関が高まるような非ロバスト特徴(変数名など)を学習したためだと仮定する。
perturbedとoodデータセットがもはや同じスプリアス機能を持っていない場合、モデル予測は失敗する。
本稿では,この課題に対処するため,ディープラーニングの脆弱性検出に因果性を導入した。
我々のアプローチは2つのフェーズからなる。
まず,モデルが予測に使用するスプリアスな特徴を発見するために,新しい摂動をデザインした。
第2に,既存のディープラーニングモデルに加えて,因果学習アルゴリズム,特にdo-calculusを適用し,スプリアス特徴の利用を体系的に排除し,因果に基づく予測を促進する。
その結果、CausalVulは、実験したすべての最先端モデルとデータセットに対して、モデル精度、堅牢性、OOD性能を一貫して改善した。
私たちの知る限りでは、これは計算に基づく因果学習をソフトウェア工学モデルに導入した最初の作品であり、モデル精度、堅牢性、一般化を改善するのに本当に有用であることを示している。
私たちのレプリケーションパッケージはhttps://figshare.com/s/0ffda320dcb96c249ef2にあります。 Deep learning vulnerability detection has shown promising results in recent years. However, an important challenge that still blocks it from being very useful in practice is that the model is not robust under perturbation and it cannot generalize well over the out-of-distribution (OOD) data, e.g., applying a trained model to unseen projects in real world. We hypothesize that this is because the model learned non-robust features, e.g., variable names, that have spurious correlations with labels. When the perturbed and OOD datasets no longer have the same spurious features, the model prediction fails. To address the challenge, in this paper, we introduced causality into deep learning vulnerability detection. Our approach CausalVul consists of two phases. First, we designed novel perturbations to discover spurious features that the model may use to make predictions. Second, we applied the causal learning algorithms, specifically, do-calculus, on top of existing deep learning models to systematically remove the use of spurious features and thus promote causal based prediction. Our results show that CausalVul consistently improved the model accuracy, robustness and OOD performance for all the state-of-the-art models and datasets we experimented. To the best of our knowledge, this is the first work that introduces do calculus based causal learning to software engineering models and shows it's indeed useful for improving the model accuracy, robustness and generalization. Our replication package is located at https://figshare.com/s/0ffda320dcb96c249ef2. | 翻訳日:2023-10-16 16:27:48 公開日:2023-10-13 |
# マルチトリの次元自由離散レメズ不等式 A dimension-free discrete Remez inequality on multi-tori ( http://arxiv.org/abs/2310.07926v2 ) ライセンス: Link先を確認 | Lars Becker, Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang | (参考訳) 古典レメズ不等式は、このセグメントの正ルベーグ測度の任意の部分集合 $e$ 上の絶対値の最大値を通じて、あるセグメント上の次数 $d$ の多項式の絶対値の最大値を与える。
同様に、いくつかの変数において、より大きな集合上の次数$d$の多項式の絶対値の最大値は、部分集合上の多項式の絶対値の最大値によって制限される。
文学にはそのような不等式が多数あるが、寸法が大きくなるとすべてが台無しになる。
この記事は、このタイプの次元自由推定に特化しており、ここでは、サブセットはグリッドまたはグリッドの比較的スパースな部分集合である。
次元自由レメズ不等式に対するモチベーションは量子学習理論から非常に自然に生まれており、比較的少数のランダムなクエリによって大きな行列を大確率で復元する必要がある。
我々の次元自由不等式は、天文学的に多量の変数の低次多項式やquditアンサンブル上の低次量子可観測性を学ぶための時間効率とサンプル最適アルゴリズムを与える。 The classical Remez inequality bounds the maximum of the absolute value of a polynomial of degree $d$ on a segment through the maximum of its absolute value on any subset $E$ of positive Lebesgue measure of this segment. Similarly, in several variables the maximum of the absolute value of a polynomial of degree $d$ over a larger set is bounded by the maximum of the absolute value of a polynomial on a subset. There are many such inequalities in the literature, but all of them get spoiled when dimension grows. This article is devoted to the dimension free estimates of this type, where a subset is a grid or a rather sparse subset of the grid. The motivation for the dimension free Remez inequality came very naturally from the quantum learning theory, where we need to approximately restore with large probability a big matrix by a relatively small number of random queries, see \cite{VZ22}, \cite{SVZ}. Our dimension free inequality gives time-efficient and sample-optimal algorithms for learning low-degree polynomials of astronomically large number of variables as well as low-degree quantum observables on qudit ensembles, see \cite{SVZ} for those applications. | 翻訳日:2023-10-16 16:27:20 公開日:2023-10-13 |
# 位相確率橋による生成モデリング Generative Modeling with Phase Stochastic Bridges ( http://arxiv.org/abs/2310.07805v2 ) ライセンス: Link先を確認 | Tianrong Chen, Jiatao Gu, Laurent Dinh, Evangelos A. Theodorou, Josh Susskind, Shuangfei Zhai | (参考訳) 拡散モデル(DM)は連続入力のための最先端の生成モデルを表す。
DMは入力空間(e, position space)に確率微分方程式(SDE)を構築し、ニューラルネットワークを用いてそれを反転させる。
本研究では, 位相空間を, 位置と速度の両方を包含する拡張空間として定義する, \textbf{phase space dynamics} を基礎とする新しい生成的モデリングフレームワークを提案する。
確率的最適制御からの洞察を活用し、効率的なサンプリングを可能にする位相空間における経路測度を構築する。
DMとは対照的に、我々のフレームワークは動的伝播の初期段階で現実的なデータポイントを生成する能力を示している。
} この早期予測は、軌道に沿って追加の速度情報を利用することで、効率的なデータ生成のステージを設定する。
標準画像生成ベンチマークでは, 少数の機能評価(NFE)において, ベースラインよりも良好な性能が得られた。
さらに,効率的なサンプリング技術を備えた拡散モデルの性能に匹敵し,新しいツール生成モデルとしての可能性を強調した。 Diffusion models (DMs) represent state-of-the-art generative models for continuous inputs. DMs work by constructing a Stochastic Differential Equation (SDE) in the input space (ie, position space), and using a neural network to reverse it. In this work, we introduce a novel generative modeling framework grounded in \textbf{phase space dynamics}, where a phase space is defined as {an augmented space encompassing both position and velocity.} Leveraging insights from Stochastic Optimal Control, we construct a path measure in the phase space that enables efficient sampling. {In contrast to DMs, our framework demonstrates the capability to generate realistic data points at an early stage of dynamics propagation.} This early prediction sets the stage for efficient data generation by leveraging additional velocity information along the trajectory. On standard image generation benchmarks, our model yields favorable performance over baselines in the regime of small Number of Function Evaluations (NFEs). Furthermore, our approach rivals the performance of diffusion models equipped with efficient sampling techniques, underscoring its potential as a new tool generative modeling. | 翻訳日:2023-10-16 16:27:00 公開日:2023-10-13 |
# 圧電MEMSプラットフォームにおける構造工学的ひずみ集中による不揮発性記憶を有する高速フォトニック結晶変調器 High-speed photonic crystal modulator with non-volatile memory via structurally-engineered strain concentration in a piezo-MEMS platform ( http://arxiv.org/abs/2310.07798v2 ) ライセンス: Link先を確認 | Y. Henry Wen, David Heim, Matthew Zimmermann, Roman A. Shugayev, Mark Dong, Andrew J. Leenheer, Gerald Gilbert, Matt Eichenfield, Mikkel Heuck, Dirk R. Englund | (参考訳) 量子光学や古典光学における多くの応用は、フットプリントの低い可視NIR波長をカバーするスケーラブルで高速な変調器を必要とする。
電気光学変調器(EO)の重要な特徴は、電圧当たりの伝送変化dT/dVである。
導波変調器の従来のアプローチは、高EO係数またはより長い光-物質相互作用の選択によってdT/dVを最大化しようとするが、最終的にはそれぞれ非線形材料特性と材料損失によって制限される。
光およびRF共鳴はdT/dVを改善することができるが、特に高Qフォトニック共振器において、速度とスペクトルチューニングの面での課題が導入された。
本稿では, 圧電抑制型フォトニック結晶キャビティにおいて, 両方のトレードオフを解決するためのキャビティベースのEO変調器を提案する。
提案手法は, 長さLの圧電アクチュエータと所定圧電係数のPCCへの変位に集中し, 固定材料損失下ではdT/dVがLに比例する。
第2に、連続的かつ繰り返し可能なチューニング範囲5GHz、最大非揮発性エクストラクション8GHzの「読み書き」プロトコルでプログラム可能な材料変形を用いる。
テレコムバンドのデモでは、電圧応答177MHz/Vが40GHz、電圧幅120〜120V、3dB変調帯域が3.2MHz、共振動作が2.8GHz付近で142MHz、光消光がmin(log(T)) = -25dBまで、ミッチェルソン型干渉により0.17nW/GHzとなる。
ここで提示されるひずみ増強法は、他のひずみ感受性システムの研究および制御に適用できる。 Numerous applications in quantum and classical optics require scalable, high-speed modulators that cover visible-NIR wavelengths with low footprint, drive voltage (V) and power dissipation. A critical figure of merit for electro-optic (EO) modulators is the transmission change per voltage, dT/dV. Conventional approaches in wave-guided modulators seek to maximize dT/dV by the selection of a high EO coefficient or a longer light-material interaction, but are ultimately limited by nonlinear material properties and material losses, respectively. Optical and RF resonances can improve dT/dV, but introduce added challenges in terms of speed and spectral tuning, especially for high-Q photonic cavity resonances. Here, we introduce a cavity-based EO modulator to solve both trade-offs in a piezo-strained photonic crystal cavity. Our approach concentrates the displacement of a piezo-electric actuator of length L and a given piezoelectric coefficient into the PhCC, resulting in dT/dV proportional to L under fixed material loss. Secondly, we employ a material deformation that is programmable under a "read-write" protocol with a continuous, repeatable tuning range of 5 GHz and a maximum non-volatile excursion of 8 GHz. In telecom-band demonstrations, we measure a fundamental mode linewidth = 5.4 GHz, with voltage response 177 MHz/V corresponding to 40 GHz for voltage spanning -120 to 120 V, 3dB-modulation bandwidth of 3.2 MHz broadband DC-AC, and 142 MHz for resonant operation near 2.8 GHz operation, optical extinction down to min(log(T)) = -25 dB via Michelson-type interference, and an energy consumption down to 0.17 nW/GHz. The strain-enhancement methods presented here are applicable to study and control other strain-sensitive systems. | 翻訳日:2023-10-16 16:26:44 公開日:2023-10-13 |
# パーソナライズによるターゲット指向の対話システム:問題定式化とデータセットの定式化 Target-oriented Proactive Dialogue Systems with Personalization: Problem Formulation and Dataset Curation ( http://arxiv.org/abs/2310.07397v2 ) ライセンス: Link先を確認 | Jian Wang, Yi Cheng, Dongding Lin, Chak Tou Leong, Wenjie Li | (参考訳) ターゲット指向対話システムは、事前に定義された目標に向けて会話を積極的に操り、特定のシステム側の目標を達成するように設計されている。
本研究では,対話対象として<ダイアローグ行為,トピック>ペアを定式化し,目標達成過程におけるパーソナライズを考慮し,パーソナライズされた目標指向対話の新たな問題を検討する。
しかし、いまだに高品質なデータセットが必要であり、スクラッチから構築するには膨大な人的努力が必要です。
そこで本研究では,ロールプレイングアプローチを用いた自動データセットキュレーションフレームワークを提案する。
この枠組みに基づき,ターゲット指向対話データセット topdial を構築し,マルチターン対話約18kからなる。
実験の結果、このデータセットは高品質であり、パーソナライズされたターゲット指向対話の探索に寄与することが示された。 Target-oriented dialogue systems, designed to proactively steer conversations toward predefined targets or accomplish specific system-side goals, are an exciting area in conversational AI. In this work, by formulating a <dialogue act, topic> pair as the conversation target, we explore a novel problem of personalized target-oriented dialogue by considering personalization during the target accomplishment process. However, there remains an emergent need for high-quality datasets, and building one from scratch requires tremendous human effort. To address this, we propose an automatic dataset curation framework using a role-playing approach. Based on this framework, we construct a large-scale personalized target-oriented dialogue dataset, TopDial, which comprises about 18K multi-turn dialogues. The experimental results show that this dataset is of high quality and could contribute to exploring personalized target-oriented dialogue. | 翻訳日:2023-10-16 16:24:52 公開日:2023-10-13 |
# 言語モデルにおけるクロスドメインデータの影響について On the Impact of Cross-Domain Data on German Language Models ( http://arxiv.org/abs/2310.07321v2 ) ライセンス: Link先を確認 | Amin Dada, Aokun Chen, Cheng Peng, Kaleb E Smith, Ahmad Idrissi-Yaghir, Constantin Marc Seibold, Jianning Li, Lars Heiliger, Xi Yang, Christoph M. Friedrich, Daniel Truhn, Jan Egger, Jiang Bian, Jens Kleesiek, Yonghui Wu | (参考訳) 伝統的に、大きな言語モデルは一般的なウェブクロールまたはドメイン固有のデータで訓練されてきた。
しかし、生成可能な大規模言語モデルの最近の成功は、クロスドメインデータセットの利点に光を当てている。
品質よりもデータの多様性を優先する意義を検討するために,5つのドメインのテキストからなるドイツのデータセットと,高品質なデータを含むもう1つのデータセットを提案する。
両データセットの122Mから750Mパラメータの一連のモデルをトレーニングすることにより、複数の下流タスクに関する包括的なベンチマークを行う。
クロスドメインデータセットでトレーニングされたモデルは、品質データだけでトレーニングされたモデルよりも優れており、これまでの最新データよりも最大4.45\%改善されていることが分かりました。
モデルはhttps://huggingface.co/ikim-uk-essenで入手できる。 Traditionally, large language models have been either trained on general web crawls or domain-specific data. However, recent successes of generative large language models, have shed light on the benefits of cross-domain datasets. To examine the significance of prioritizing data diversity over quality, we present a German dataset comprising texts from five domains, along with another dataset aimed at containing high-quality data. Through training a series of models ranging between 122M and 750M parameters on both datasets, we conduct a comprehensive benchmark on multiple downstream tasks. Our findings demonstrate that the models trained on the cross-domain dataset outperform those trained on quality data alone, leading to improvements up to $4.45\%$ over the previous state-of-the-art. The models are available at https://huggingface.co/ikim-uk-essen | 翻訳日:2023-10-16 16:24:34 公開日:2023-10-13 |
# PonderV2: ユニバーサルな事前学習パラダイムによる3Dファンデーションモデルへの道を開く PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm ( http://arxiv.org/abs/2310.08586v2 ) ライセンス: Link先を確認 | Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang | (参考訳) 多くのNLPや2Dコンピュータビジョンの基礎モデルとは対照的に、堅牢で高度に一般化された3D基礎モデルの学習は大きな課題をもたらす。
これは主に、固有のデータ変動性とダウンストリームタスクの多様性によるものだ。
本稿では,効率的な3D表現の獲得を容易にするために設計された,総合的な3D事前学習フレームワークを提案する。
実写画像のレンダリングに活用できるリッチな幾何学的特徴と外観的手がかりをエンコード可能な情報的3D特徴により,我々は,3次元世界と2次元世界のブリッジとして機能する,微分可能なニューラルレンダリングによりポイントクラウド表現を学習するための,新しい普遍パラダイムを提案する。
我々は,実画像とレンダリング画像を比較することにより,考案したボリュームトリクスニューラルレンダラ内でポイントクラウドエンコーダを訓練する。
特に,本手法では,学習した3Dエンコーダを多様な下流タスクにシームレスに統合する。
これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。
さらに,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング手法を大差で上回った。
PonderV2は11の室内および屋外ベンチマークで最先端のパフォーマンスを達成した。
各種設定における一貫した改善は,提案手法の有効性を示唆する。
コードとモデルはhttps://github.com/OpenGVLab/PonderV2.comで公開される。 In contrast to numerous NLP and 2D computer vision foundational models, the learning of a robust and highly generalized 3D foundational model poses considerably greater challenges. This is primarily due to the inherent data variability and the diversity of downstream tasks. In this paper, we introduce a comprehensive 3D pre-training framework designed to facilitate the acquisition of efficient 3D representations, thereby establishing a pathway to 3D foundational models. Motivated by the fact that informative 3D features should be able to encode rich geometry and appearance cues that can be utilized to render realistic images, we propose a novel universal paradigm to learn point cloud representations by differentiable neural rendering, serving as a bridge between 3D and 2D worlds. We train a point cloud encoder within a devised volumetric neural renderer by comparing the rendered images with the real images. Notably, our approach demonstrates the seamless integration of the learned 3D encoder into diverse downstream tasks. These tasks encompass not only high-level challenges such as 3D detection and segmentation but also low-level objectives like 3D reconstruction and image synthesis, spanning both indoor and outdoor scenarios. Besides, we also illustrate the capability of pre-training a 2D backbone using the proposed universal methodology, surpassing conventional pre-training methods by a large margin. For the first time, PonderV2 achieves state-of-the-art performance on 11 indoor and outdoor benchmarks. The consistent improvements in various settings imply the effectiveness of the proposed method. Code and models will be made available at https://github.com/OpenGVLab/PonderV2. | 翻訳日:2023-10-16 16:14:18 公開日:2023-10-13 |
# マルチモーダル大言語モデルの編集は可能か? Can We Edit Multimodal Large Language Models? ( http://arxiv.org/abs/2310.08475v2 ) ライセンス: Link先を確認 | Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang | (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の編集に焦点をあてる。
単一モードLLMの編集に比べ、マルチモーダルモデル編集はより困難であり、編集プロセスにおいてより高度な精査と慎重な考慮が必要である。
そこで本研究では,マルチモーダル LLM の編集と評価のための革新的な指標のスイートを構築するため,MMEdit という新しいベンチマークを構築した。
各種モデル編集ベースラインの包括的実験を行い、多モードLLMにおける様々なコンポーネントの編集の影響を分析した。
経験的に、以前のベースラインはある程度はマルチモーダル LLM の編集を実装できるが、その効果はいまだに十分であり、この課題の潜在的な難しさを示している。
私たちの研究がNLPコミュニティに洞察を与えてくれることを願っています。
コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。 In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights. Code and dataset are available in https://github.com/zjunlp/EasyEdit. | 翻訳日:2023-10-16 16:13:52 公開日:2023-10-13 |
# wasserstein ali と mipgan による最悪の形態変化 Worst-Case Morphs using Wasserstein ALI and Improved MIPGAN ( http://arxiv.org/abs/2310.08371v2 ) ライセンス: Link先を確認 | Una M. Kelly, Meike Nauta, Lu Liu, Luuk J. Spreeuwers, Raymond N. J. Veldhuis | (参考訳) morphは2つの異なる顔画像の組み合わせであり、2人の異なる人のアイデンティティ情報を含んでいる。
アイデンティティ文書で使用される場合、両人はバイオメトリック顔認識(fr)システムによって認証される。
モフはランドマークベースのアプローチか、GAN(Generative Adversarial Networks)のようなディープラーニングに基づくアプローチで生成することができる。
最近の論文では、frシステムにおけるモーフィング攻撃の難易度について、emph{worst-case}上界を導入しました。
この上界に近づくほど、FRに作用する挑戦は大きくなる。
我々は、この上界を既知のFR系(ホワイトボックス)に近似する形態を生成することができるが、未知のFR系(ブラックボックス)には適用できないアプローチを導入した。
本稿では,FR系が未知であっても,最悪のケース形態を近似できる形態素生成手法を提案する。
重要な貢献は、難易度の高いmorphs \emph{during}トレーニングを生成するという目標を含むことです。
本稿では,適応学習推論(Adversarially Learned Inference,ALI)に基づいて,GANのトレーニングを安定化するために導入されたグラディエントペナルティ(Gradient Penalty)を訓練したWasserstein GANsの概念を用いた。
これらの概念は、トレーニング安定性の同様の改善を実現し、結果の方法Wasserstein ALI (WALI) と呼ぶものである。
顔画像における識別情報の操作能力を向上させるためにデザインされた損失関数を用いてWALIを微調整し、ランドマークやGANベースの形態よりもFRシステムにとって困難な形態を生成する方法を示す。
また,既存のStyleGANをベースとした形態生成装置であるMIPGANを改良するために,我々の知見をどのように利用できるかを示す。 A morph is a combination of two separate facial images and contains identity information of two different people. When used in an identity document, both people can be authenticated by a biometric Face Recognition (FR) system. Morphs can be generated using either a landmark-based approach or approaches based on deep learning such as Generative Adversarial Networks (GAN). In a recent paper, we introduced a \emph{worst-case} upper bound on how challenging morphing attacks can be for an FR system. The closer morphs are to this upper bound, the bigger the challenge they pose to FR. We introduced an approach with which it was possible to generate morphs that approximate this upper bound for a known FR system (white box), but not for unknown (black box) FR systems. In this paper, we introduce a morph generation method that can approximate worst-case morphs even when the FR system is not known. A key contribution is that we include the goal of generating difficult morphs \emph{during} training. Our method is based on Adversarially Learned Inference (ALI) and uses concepts from Wasserstein GANs trained with Gradient Penalty, which were introduced to stabilise the training of GANs. We include these concepts to achieve similar improvement in training stability and call the resulting method Wasserstein ALI (WALI). We finetune WALI using loss functions designed specifically to improve the ability to manipulate identity information in facial images and show how it can generate morphs that are more challenging for FR systems than landmark- or GAN-based morphs. We also show how our findings can be used to improve MIPGAN, an existing StyleGAN-based morph generator. | 翻訳日:2023-10-16 16:13:38 公開日:2023-10-13 |
# インストラクテッドモデルから得られた合成データに対する学習的質問応答 Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model ( http://arxiv.org/abs/2310.08072v2 ) ライセンス: Link先を確認 | Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki | (参考訳) 本稿では,質問応答システムの学習のための簡易かつ費用対効果の高いデータ合成手法を提案する。
トレーニングでは、英語のような資源豊富な言語では微調整のGPTモデルが一般的であるが、十分な質問応答(QA)ペアが不足しているため、英語以外の言語では難しい。
既存のアプローチでは、人間によるQAペアで訓練された質問と回答ジェネレータを使用している。
対照的に、命令付きモデルを用いてゼロショットまたは少数ショットでQAペアを生成する。
インストラクション学習モデルからQAペアを得るための様々な戦略を比較する実験を行った。
その結果,提案する合成データに基づいて学習したモデルは,人的コストを伴わずに,手作業で収集したデータセットでトレーニングされたモデルに匹敵する性能が得られることがわかった。 This paper presents a simple and cost-effective method for synthesizing data to train question-answering systems. For training, fine-tuning GPT models is a common practice in resource-rich languages like English, however, it becomes challenging for non-English languages due to the scarcity of sufficient question-answer (QA) pairs. Existing approaches use question and answer generators trained on human-authored QA pairs, which involves substantial human expenses. In contrast, we use an instruct-tuned model to generate QA pairs in a zero-shot or few-shot manner. We conduct experiments to compare various strategies for obtaining QA pairs from the instruct-tuned model. The results demonstrate that a model trained on our proposed synthetic data achieves comparable performance to a model trained on manually curated datasets, without incurring human costs. | 翻訳日:2023-10-16 16:13:08 公開日:2023-10-13 |
# BERTの一般化性に及ぼす人体と親和性サンプルの影響 Effects of Human Adversarial and Affable Samples on BERT Generalizability ( http://arxiv.org/abs/2310.08008v2 ) ライセンス: Link先を確認 | Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor | (参考訳) bertベースのモデルは、leaderboardsでパフォーマンスが高かったが、現実の世界では一般化を必要とする状況では、かなり悪くなっている。
限られた量のトレーニングデータは、機械学習における一般化性を達成するための鍵となる障害とみなされる。
本稿では,モデルの一般化性に対する量ではなく,データ品質のトレーニングが与える影響について検討する。
訓練データの特徴として,人間-敵関係 (h-敵関係) の部分,すなわち,一見小さな差異があるが接地ラベルが異なるサンプルペア,および人間-適応(h-親和性)訓練サンプル,すなわち,接地ラベルは同じ接地ラベルを持つサンプルペアの2つを検討した。
サンプルの固定サイズについては,親指の規則として10~30%のh-adversarialインスタンスを持つと精度が向上し,F1はテキスト分類や関係抽出のタスクにおいて最大20ポイント向上することがわかった。
この範囲を超えてh-adversarialが増加すると、パフォーマンスのプラトーや劣化が起きる。
対照的に、h-affablesはモデルの一般化可能性に寄与せず、一般化性能を低下させることもある。 BERT-based models have had strong performance on leaderboards, yet have been demonstrably worse in real-world settings requiring generalization. Limited quantities of training data is considered a key impediment to achieving generalizability in machine learning. In this paper, we examine the impact of training data quality, not quantity, on a model's generalizability. We consider two characteristics of training data: the portion of human-adversarial (h-adversarial), i.e., sample pairs with seemingly minor differences but different ground-truth labels, and human-affable (h-affable) training samples, i.e., sample pairs with minor differences but the same ground-truth label. We find that for a fixed size of training samples, as a rule of thumb, having 10-30% h-adversarial instances improves the precision, and therefore F1, by up to 20 points in the tasks of text classification and relation extraction. Increasing h-adversarials beyond this range can result in performance plateaus or even degradation. In contrast, h-affables may not contribute to a model's generalizability and may even degrade generalization performance. | 翻訳日:2023-10-16 16:12:52 公開日:2023-10-13 |
# 分散アンサンブル学習のためのインセンティブ機構設計 Incentive Mechanism Design for Distributed Ensemble Learning ( http://arxiv.org/abs/2310.08792v1 ) ライセンス: Link先を確認 | Chao Huang, Pengchao Han, Jianwei Huang | (参考訳) 分散アンサンブル学習(del)は、複数のモデルを分散学習者でトレーニングし、それらの予測を組み合わせてパフォーマンスを改善する。
既存の研究はdelアルゴリズムの設計と最適化に焦点を当てているが、自己関心のある学習者がdelに参加することを望まないインセンティブの重要な問題を無視している。
delのインセンティブ機構設計に関する最初の研究を行い,このギャップを埋めようとしている。
提案手法は,不均質な計算と通信コストを有する学習者に対して,訓練データ量と報酬の双方を規定する。
1つの設計課題は、学習者の多様性(トレーニングデータの観点から)がアンサンブル精度にどのように影響するかを正確に理解することである。
そこで我々は,アンサンブルの精度を多様性-精度トレードオフに分解し,機構設計を導く。
もう一つの課題は、大きな検索スペースを持つ混合整数プログラムを解くメカニズム設計である。
そこで本研究では,学習者の学習データサイズと報酬を反復的に更新するアルゴリズムを提案する。
穏やかな条件下ではアルゴリズムが収束することを証明する。
MNISTデータセットを用いた数値的な結果は興味深い結果である: 提案手法はより低いレベルの学習者の多様性を選好し、より高いアンサンブル精度を実現する。 Distributed ensemble learning (DEL) involves training multiple models at distributed learners, and then combining their predictions to improve performance. Existing related studies focus on DEL algorithm design and optimization but ignore the important issue of incentives, without which self-interested learners may be unwilling to participate in DEL. We aim to fill this gap by presenting a first study on the incentive mechanism design for DEL. Our proposed mechanism specifies both the amount of training data and reward for learners with heterogeneous computation and communication costs. One design challenge is to have an accurate understanding regarding how learners' diversity (in terms of training data) affects the ensemble accuracy. To this end, we decompose the ensemble accuracy into a diversity-precision tradeoff to guide the mechanism design. Another challenge is that the mechanism design involves solving a mixed-integer program with a large search space. To this end, we propose an alternating algorithm that iteratively updates each learner's training data size and reward. We prove that under mild conditions, the algorithm converges. Numerical results using MNIST dataset show an interesting result: our proposed mechanism may prefer a lower level of learner diversity to achieve a higher ensemble accuracy. | 翻訳日:2023-10-16 15:05:01 公開日:2023-10-13 |
# 品質認識型フェデレーション学習における安定性のプライス Price of Stability in Quality-Aware Federated Learning ( http://arxiv.org/abs/2310.08790v1 ) ライセンス: Link先を確認 | Yizhou Yan, Xinyu Tang, Chao Huang, Ming Tang | (参考訳) Federated Learning(FL)は、クライアントがローカルデータを交換することなく、共有グローバルモデルをトレーニングできる分散機械学習スキームである。
ラベルノイズの存在はflの性能を著しく低下させる可能性があり、既存の研究はラベル雑音のアルゴリズム設計に焦点を当てている。
しかし彼らは、クライアントが自己関心を持ち、flのパフォーマンスに異質な評価を持つため、コストのかかるラベル表示戦略を適用できないという重要な問題を無視した。
このギャップを埋めるために,我々はクライアントのインタラクションを,新しいラベル表示ゲームとしてモデル化し,その均衡を特徴付ける。
また,システム性能(例えば,グローバルモデル精度,社会福祉)と均衡結果と社会最適解との差を定量化する安定性価格についても分析した。
均衡結果が常に社会的に最適な解よりも低い大域的モデル精度をもたらすことを証明した。
さらに、社会的に最適な解を計算するための効率的なアルゴリズムを設計する。
MNISTデータセットの数値実験により、クライアントのデータがノイズになるにつれて安定性の価格が上昇し、効果的なインセンティブ機構が要求される。 Federated Learning (FL) is a distributed machine learning scheme that enables clients to train a shared global model without exchanging local data. The presence of label noise can severely degrade the FL performance, and some existing studies have focused on algorithm design for label denoising. However, they ignored the important issue that clients may not apply costly label denoising strategies due to them being self-interested and having heterogeneous valuations on the FL performance. To fill this gap, we model the clients' interactions as a novel label denoising game and characterize its equilibrium. We also analyze the price of stability, which quantifies the difference in the system performance (e.g., global model accuracy, social welfare) between the equilibrium outcome and the socially optimal solution. We prove that the equilibrium outcome always leads to a lower global model accuracy than the socially optimal solution does. We further design an efficient algorithm to compute the socially optimal solution. Numerical experiments on MNIST dataset show that the price of stability increases as the clients' data become noisier, calling for an effective incentive mechanism. | 翻訳日:2023-10-16 15:04:40 公開日:2023-10-13 |
# 生産性を駆動する選択性: 伝達学習の効率化のための効率的なデータセット抽出 Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning ( http://arxiv.org/abs/2310.08782v1 ) ライセンス: Link先を確認 | Yihua Zhang, Yimeng Zhang, Aochuan Chen, Jinghan Jia, Jiancheng Liu, Gaowen Liu, Mingyi Hong, Shiyu Chang, Sijia Liu | (参考訳) 大規模データは深層学習アプリケーションには不可欠であると考えられがちだが、計算コストやインフラコストも大きい。
そのため,データセット解析(DP)は,冗長なトレーニングサンプルを識別・削除することでデータ効率を向上させる効果的な方法として出現している。
本研究は,移動学習におけるDPの課題,すなわち,下流目標タスクにおける事前学習効率の向上と損失のない微調整精度向上のためのソースデータセットの作成方法に対処することを目的とする。
我々の知る限り、転送学習におけるDPの問題は、従来研究が主にDPと転送学習を個別の問題として取り上げてきたため、まだ未解決のままである。
対照的に,トランスファー学習とdpを統合するための統一的な視点を確立し,既存のdp手法がトランスファー学習パラダイムに適さないことを示す。
次に、ソース・ターゲット領域マッピングのレンズを用いてDP問題を再検討することにより、教師付きおよび自己教師型事前学習設定のためのラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
さらに,多くの伝達学習課題に対するアプローチの有効性を実証する。
我々は、下流のパフォーマンスを犠牲にすることなく、ソースデータクラスを最大40%から80%まで刈り取ることができ、事前学習の段階では2倍から5倍のスピードアップを達成できることを示した。
さらに,提案手法は広く適用可能であり,逆行前学習などの計算集約的なトランスファー学習手法を改善することができる。
コードはhttps://github.com/OPTML-Group/DP4TLで公開されている。 Massive data is often considered essential for deep learning applications, but it also incurs significant computational and infrastructural costs. Therefore, dataset pruning (DP) has emerged as an effective way to improve data efficiency by identifying and removing redundant training samples without sacrificing performance. In this work, we aim to address the problem of DP for transfer learning, i.e., how to prune a source dataset for improved pretraining efficiency and lossless finetuning accuracy on downstream target tasks. To our best knowledge, the problem of DP for transfer learning remains open, as previous studies have primarily addressed DP and transfer learning as separate problems. By contrast, we establish a unified viewpoint to integrate DP with transfer learning and find that existing DP methods are not suitable for the transfer learning paradigm. We then propose two new DP methods, label mapping and feature mapping, for supervised and self-supervised pretraining settings respectively, by revisiting the DP problem through the lens of source-target domain mapping. Furthermore, we demonstrate the effectiveness of our approach on numerous transfer learning tasks. We show that source data classes can be pruned by up to 40% ~ 80% without sacrificing downstream performance, resulting in a significant 2 ~ 5 times speed-up during the pretraining stage. Besides, our proposal exhibits broad applicability and can improve other computationally intensive transfer learning techniques, such as adversarial pretraining. Codes are available at https://github.com/OPTML-Group/DP4TL. | 翻訳日:2023-10-16 15:03:35 公開日:2023-10-13 |
# 『私はラシストではないが...』:大言語モデルの内部知識におけるバイアスの発見 "Im not Racist but...": Discovering Bias in the Internal Knowledge of Large Language Models ( http://arxiv.org/abs/2310.08780v1 ) ライセンス: Link先を確認 | Abel Salinas, Louis Penafiel, Robert McCormack, Fred Morstatter | (参考訳) 大規模言語モデル(llm)は、自然言語処理タスクの連続的な拡張において顕著な性能を誇っている。
しかし、これらのモデルは固有の社会バイアス(ステレオタイプ)を保ち、下流の多くのアプリケーションでパフォーマンスに悪影響を及ぼすことが示されている。
本稿では,任意の LLM 内に隠されたステレオタイプを明らかにするための,新しい,純粋にプロンプトに基づくアプローチを提案する。
本手法は内部ステレオタイプの知識表現を動的に生成し,LLMの内部知識に符号化されたバイアスの同定を可能にする。
LLMのバイアスを照明し、その分析のための体系的な方法論を提供することで、自然言語処理システムにおける透明性の向上と公平性の促進に寄与する。 Large language models (LLMs) have garnered significant attention for their remarkable performance in a continuously expanding set of natural language processing tasks. However, these models have been shown to harbor inherent societal biases, or stereotypes, which can adversely affect their performance in their many downstream applications. In this paper, we introduce a novel, purely prompt-based approach to uncover hidden stereotypes within any arbitrary LLM. Our approach dynamically generates a knowledge representation of internal stereotypes, enabling the identification of biases encoded within the LLM's internal knowledge. By illuminating the biases present in LLMs and offering a systematic methodology for their analysis, our work contributes to advancing transparency and promoting fairness in natural language processing systems. | 翻訳日:2023-10-16 15:03:09 公開日:2023-10-13 |
# VMD-GARCH-LSTMモデルを用いた時系列予測の非線形手法 A Nonlinear Method for time series forecasting using VMD-GARCH-LSTM model ( http://arxiv.org/abs/2310.08812v1 ) ライセンス: Link先を確認 | Zhengtao Gui, Haoyuan Li, Sijie Xu, Yu Chen | (参考訳) 時系列予測は様々な分野において重要かつ困難なタスクである。
近年,局所的な特徴を捉え,データから固有モードを抽出するという利点から,モード分解に基づく手法が複雑な時系列予測を優位に立たしている。
残念なことに、ほとんどのモデルは重要な情報を含む暗黙のボラティリティを捉えていない。
そこで我々は,現在,急速に進化し,揮発する時系列の予測性を高めるために,新しい分解・感覚パラダイムであるvmd-lstm-garchモデルを提案する。
変動モード分解アルゴリズムを用いて時系列をKサブモードに分解する。
その後、GARCHモデルはこれらのサブモードからボラティリティ情報を抽出し、LSTMの入力として機能する。
各サブモードの数値およびボラティリティ情報は、Long Short-Term Memory Networkのトレーニングに使用される。
このネットワークはサブモードを予測し、すべてのサブモードから予測を集約して出力を生成します。
econometric and artificial intelligence (econometric and artificial intelligence) 法を統合し, 時系列の数値的および変動性情報の両方を考慮して, 実験結果におけるmse, rmse, mapeの有意な減少が示すように, 時系列予測における優れた性能を示す。 Time series forecasting represents a significant and challenging task across various fields. Recently, methods based on mode decomposition have dominated the forecasting of complex time series because of the advantages of capturing local characteristics and extracting intrinsic modes from data. Unfortunately, most models fail to capture the implied volatilities that contain significant information. To enhance the forecasting of current, rapidly evolving, and volatile time series, we propose a novel decomposition-ensemble paradigm, the VMD-LSTM-GARCH model. The Variational Mode Decomposition algorithm is employed to decompose the time series into K sub-modes. Subsequently, the GARCH model extracts the volatility information from these sub-modes, which serve as the input for the LSTM. The numerical and volatility information of each sub-mode is utilized to train a Long Short-Term Memory network. This network predicts the sub-mode, and then we aggregate the predictions from all sub-modes to produce the output. By integrating econometric and artificial intelligence methods, and taking into account both the numerical and volatility information of the time series, our proposed model demonstrates superior performance in time series forecasting, as evidenced by the significant decrease in MSE, RMSE, and MAPE in our comparative experimental results. | 翻訳日:2023-10-16 14:54:26 公開日:2023-10-13 |
# DexCatch: 任意のオブジェクトをデクサラスハンドでキャッチする学習 DexCatch: Learning to Catch Arbitrary Objects with Dexterous Hands ( http://arxiv.org/abs/2310.08809v1 ) ライセンス: Link先を確認 | Fengbo Lan, Shengjie Wang, Yunzhe Zhang, Haotian Xu, Oluwatosin Oseni, Yang Gao, Tao Zhang | (参考訳) 人間のような巧妙な操作を実現することは、ロボット工学における重要な研究領域である。
現在の研究は、ピック・アンド・プレイス・タスクの成功率の向上に焦点を当てている。
ピック・アンド・プレースと比較して、スロー・キャッチングの動作は、オブジェクトを目的地に運ぶことなくピッキング速度を増加させる可能性がある。
しかし、ダイナミックデキスタラスな操作は、多数の動的接触のために安定した制御を行う上で大きな課題となる。
本稿では,様々な物体をデクスタブルな手で捕捉することを学ぶために,安定性に制約のある強化学習(scrl)アルゴリズムを提案する。
SCRLアルゴリズムはベースラインを大きなマージンで上回り、学習ポリシーは見えないオブジェクトに対して強いゼロショット転送性能を示す。
手のひらからの支持が欠如しているため, 横向きの物体が極めて不安定であるにもかかわらず, 本手法は, もっとも困難な作業において, 高い成功率を達成することができる。
学習した振る舞いとコードのデモは、補足的なウェブサイトで見ることができる。 Achieving human-like dexterous manipulation remains a crucial area of research in robotics. Current research focuses on improving the success rate of pick-and-place tasks. Compared with pick-and-place, throw-catching behavior has the potential to increase picking speed without transporting objects to their destination. However, dynamic dexterous manipulation poses a major challenge for stable control due to a large number of dynamic contacts. In this paper, we propose a Stability-Constrained Reinforcement Learning (SCRL) algorithm to learn to catch diverse objects with dexterous hands. The SCRL algorithm outperforms baselines by a large margin, and the learned policies show strong zero-shot transfer performance on unseen objects. Remarkably, even though the object in a hand facing sideward is extremely unstable due to the lack of support from the palm, our method can still achieve a high level of success in the most challenging task. Video demonstrations of learned behaviors and the code can be found on the supplementary website. | 翻訳日:2023-10-16 14:54:04 公開日:2023-10-13 |
# 左心房後期ガドリニウム造影MRI画像の品質評価のための2段階ディープラーニングフレームワーク Two-Stage Deep Learning Framework for Quality Assessment of Left Atrial Late Gadolinium Enhanced MRI Images ( http://arxiv.org/abs/2310.08805v1 ) ライセンス: Link先を確認 | K M Arefeen Sultan, Benjamin Orkild, Alan Morris, Eugene Kholmovski, Erik Bieging, Eugene Kwan, Ravi Ranjan, Ed DiBella, Shireen Elhabian | (参考訳) 心房細動における左房線維化の正確な評価は, 高品質の3D遅延ガドリニウム造影(LGE)MRI画像に依存する。
しかし, 患者の動き, 呼吸パターンの変化, パルスシーケンスパラメータのサブ最適選択などにより, 画像の取得は困難である。
LGE-MRI画像診断品質の自動評価は、診断精度を高め、効率を向上し、標準化を確保し、線維化定量化と治療計画のための信頼性と高品質なLGE-MRIスキャンを提供することで、より良い患者結果に寄与する。
そこで本研究では,LGE-MRI画像の自動診断品質評価のための2段階のディープラーニング手法を提案する。
この方法は、関連する領域に集中する左心房検出器と、診断品質を評価するディープネットワークを含む。
医用画像におけるアノテートデータの制限を克服するために,マルチタスク学習とコントラスト学習を用いた事前学習の2つのトレーニング戦略を検討した。
対照的な学習結果は、データに制限がある場合と比較して、F1スコアと特異性を約4\%、9\%改善している。 Accurate assessment of left atrial fibrosis in patients with atrial fibrillation relies on high-quality 3D late gadolinium enhancement (LGE) MRI images. However, obtaining such images is challenging due to patient motion, changing breathing patterns, or sub-optimal choice of pulse sequence parameters. Automated assessment of LGE-MRI image diagnostic quality is clinically significant as it would enhance diagnostic accuracy, improve efficiency, ensure standardization, and contributes to better patient outcomes by providing reliable and high-quality LGE-MRI scans for fibrosis quantification and treatment planning. To address this, we propose a two-stage deep-learning approach for automated LGE-MRI image diagnostic quality assessment. The method includes a left atrium detector to focus on relevant regions and a deep network to evaluate diagnostic quality. We explore two training strategies, multi-task learning, and pretraining using contrastive learning, to overcome limited annotated data in medical imaging. Contrastive Learning result shows about $4\%$, and $9\%$ improvement in F1-Score and Specificity compared to Multi-Task learning when there's limited data. | 翻訳日:2023-10-16 14:53:48 公開日:2023-10-13 |
# 認知科学の原理による人工知能の知覚の向上 Advancing Perception in Artificial Intelligence through Principles of Cognitive Science ( http://arxiv.org/abs/2310.08803v1 ) ライセンス: Link先を確認 | Palaash Agrawal, Cheston Tan and Heena Rathore | (参考訳) 人工知能(AI)は、急速に多くの成果を上げてきたが、まだ未解決の問題や、性能や資源効率に関する根本的な欠点が残っている。
AI研究者は人間の知性を通じてパフォーマンス標準のかなりの割合をベンチマークするため、認知科学にインスパイアされたAIは研究の有望な領域である。
認知科学を研究することは、ai研究の基本ブロックを構築する新しい視点を提供することができ、それによってパフォーマンスと効率が向上する。
本稿では,周囲からの信号を入力として受け取り,それらを処理して環境を理解する過程である知覚の認知機能に着目した。
特に、認知科学とAIの両方のレンズを通して、その様々なプロセスを研究・比較する。
本研究では,認知科学の様々なサブ分野(特に神経科学,心理学,言語学)の現在の主要な理論を概観し,AIの現在の実践から理論と技術とを対比する。
そこで我々は,認知科学にインスパイアされたAIシステムを構築するための,AIの詳細な手法を提示する。
さらに、認知に触発されたAIの状態をレビューする過程で、AIの現状(人間の脳のパフォーマンスに関する)における多くのギャップを指摘し、研究者がAIでより良い知覚システムを開発するための潜在的方向を示す。 Although artificial intelligence (AI) has achieved many feats at a rapid pace, there still exist open problems and fundamental shortcomings related to performance and resource efficiency. Since AI researchers benchmark a significant proportion of performance standards through human intelligence, cognitive sciences-inspired AI is a promising domain of research. Studying cognitive science can provide a fresh perspective to building fundamental blocks in AI research, which can lead to improved performance and efficiency. In this review paper, we focus on the cognitive functions of perception, which is the process of taking signals from one's surroundings as input, and processing them to understand the environment. Particularly, we study and compare its various processes through the lens of both cognitive sciences and AI. Through this study, we review all current major theories from various sub-disciplines of cognitive science (specifically neuroscience, psychology and linguistics), and draw parallels with theories and techniques from current practices in AI. We, hence, present a detailed collection of methods in AI for researchers to build AI systems inspired by cognitive science. Further, through the process of reviewing the state of cognitive-inspired AI, we point out many gaps in the current state of AI (with respect to the performance of the human brain), and hence present potential directions for researchers to develop better perception systems in AI. | 翻訳日:2023-10-16 14:53:28 公開日:2023-10-13 |
# DDMT:多変量時系列異常検出のための拡散マスク変換器モデル DDMT: Denoising Diffusion Mask Transformer Models for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2310.08800v1 ) ライセンス: Link先を確認 | Chaocheng Yang and Tingyin Wang and Xuanhui Yan | (参考訳) 多変量時系列における異常検出は時系列研究において重要な課題として現れており、不正検出、故障診断、システム状態推定など様々な分野で重要な研究が行われている。
再構成に基づくモデルは近年,時系列データの異常検出に有望な可能性を示している。
しかし,データ規模や次元の急激な増加により,時系列再構成におけるノイズ・弱同一性マッピング(WIM)の問題がますます顕著になっている。
そこで我々は,Adaptive Dynamic Neighbor Mask (ADNM) 機構を導入し,それを Transformer and Denoising Diffusion Model に統合し,多変量時系列異常検出のための新しいフレームワークである Denoising Diffusion Mask Transformer (DDMT) を開発した。
ADNMモジュールは、データ再構成時に入力と出力の特徴間の情報漏洩を軽減し、再構築時にWIMの問題を軽減する。
Denoising Diffusion Transformer (DDT)は、Denoising Diffusion Modelのための内部ニューラルネットワーク構造としてTransformerを使用している。
時系列データの段階的生成過程を学習し、データの確率分布をモデル化し、正常なデータパターンをキャプチャし、ノイズを除去して時系列データを段階的に復元し、異常の明確な回復をもたらす。
我々の知る限り、これは多変量時系列異常検出のためのデノイング拡散モデルと変換器を組み合わせた最初のモデルである。
5種類の多変量時系列異常検出データセットを用いて実験を行った。
その結果, 時系列データの異常を効果的に識別し, 異常検出時の最先端性能を実現することができた。 Anomaly detection in multivariate time series has emerged as a crucial challenge in time series research, with significant research implications in various fields such as fraud detection, fault diagnosis, and system state estimation. Reconstruction-based models have shown promising potential in recent years for detecting anomalies in time series data. However, due to the rapid increase in data scale and dimensionality, the issues of noise and Weak Identity Mapping (WIM) during time series reconstruction have become increasingly pronounced. To address this, we introduce a novel Adaptive Dynamic Neighbor Mask (ADNM) mechanism and integrate it with the Transformer and Denoising Diffusion Model, creating a new framework for multivariate time series anomaly detection, named Denoising Diffusion Mask Transformer (DDMT). The ADNM module is introduced to mitigate information leakage between input and output features during data reconstruction, thereby alleviating the problem of WIM during reconstruction. The Denoising Diffusion Transformer (DDT) employs the Transformer as an internal neural network structure for Denoising Diffusion Model. It learns the stepwise generation process of time series data to model the probability distribution of the data, capturing normal data patterns and progressively restoring time series data by removing noise, resulting in a clear recovery of anomalies. To the best of our knowledge, this is the first model that combines Denoising Diffusion Model and the Transformer for multivariate time series anomaly detection. Experimental evaluations were conducted on five publicly available multivariate time series anomaly detection datasets. The results demonstrate that the model effectively identifies anomalies in time series data, achieving state-of-the-art performance in anomaly detection. | 翻訳日:2023-10-16 14:53:05 公開日:2023-10-13 |
# sparsity-exploited rerankingアルゴリズムによるテンソル依存構造の変化検出 Alteration Detection of Tensor Dependence Structure via Sparsity-Exploited Reranking Algorithm ( http://arxiv.org/abs/2310.08798v1 ) ライセンス: Link先を確認 | Li Ma, Shenghao Qin, and Yin Xia | (参考訳) テンソル値のデータは様々な科学的応用から頻繁に発生し、その多くがテンソル依存構造の変形検出問題に変換される。
本稿では、広く採用されているテンソル正規分布の下で問題を定式化し、テンソル値観測の2つのサンプル相関/部分相関比較を目標とする。
デコリレーションと集中化により、異なるテンソルモードからのサンプル情報を分離可能な共分散構造を用いて、テストのパワーを高める。
さらに,複数のテスト効率を改善するため,新しいSERA(Sprsity-Exploited Re rank Algorithm)を提案する。
このアルゴリズムは、精巧に構築された補助テンソルシーケンスを組み込むことで、一次試験統計から得られるp値の再ランク付けによってアプローチされる。
テンソルフレームワークの他に、SERAはスパーシティ構造を持つ広範囲な2サンプルの大規模推論問題にも適用でき、独立した関心を持つ。
提案した試験の漸近特性を導出し,事前に特定されたレベルでの誤検出を制御するアルゴリズムを示す。
集中シミュレーションと2つの科学的応用により,提案手法の有効性を実証する。 Tensor-valued data arise frequently from a wide variety of scientific applications, and many among them can be translated into an alteration detection problem of tensor dependence structures. In this article, we formulate the problem under the popularly adopted tensor-normal distributions and aim at two-sample correlation/partial correlation comparisons of tensor-valued observations. Through decorrelation and centralization, a separable covariance structure is employed to pool sample information from different tensor modes to enhance the power of the test. Additionally, we propose a novel Sparsity-Exploited Reranking Algorithm (SERA) to further improve the multiple testing efficiency. The algorithm is approached through reranking of the p-values derived from the primary test statistics, by incorporating a carefully constructed auxiliary tensor sequence. Besides the tensor framework, SERA is also generally applicable to a wide range of two-sample large-scale inference problems with sparsity structures, and is of independent interest. The asymptotic properties of the proposed test are derived and the algorithm is shown to control the false discovery at the pre-specified level. We demonstrate the efficacy of the proposed method through intensive simulations and two scientific applications. | 翻訳日:2023-10-16 14:52:35 公開日:2023-10-13 |
# 変圧器言語モデル圧縮のためのタスク非依存蒸留法の比較分析 A Comparative Analysis of Task-Agnostic Distillation Methods for Compressing Transformer Language Models ( http://arxiv.org/abs/2310.08797v1 ) ライセンス: Link先を確認 | Takuma Udagawa, Aashka Trivedi, Michele Merler, Bishwaranjan Bhattacharjee | (参考訳) 大規模言語モデルは現代のNLPにおいて重要な要素となり、様々なタスクにおいてアートパフォーマンスの状態を達成している。
しかし、コストのかかる推論コストのため、現実のデプロイメントでは効率が悪いことが多い。
知識蒸留は効率を向上する上で有望な技術であり、その効果のほとんどを維持している。
本稿では,トランスフォーマー言語モデルのタスク非依存(汎用)蒸留における代表的手法を再現,比較,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
本研究は,単言語(英語)と多言語(多言語)の両方において,様々な学生アーキテクチャにおける各手法の有効性について検討した。
総じて,MiniLMv2に基づくMHA輸送が蒸留の最適選択肢であり,その成功の背景にある可能性を説明する。
さらに,hsトランスファーは,特に洗練された層マッピング戦略の下では,競争ベースラインとして残っており,odトランスファーは他のアプローチよりも遅れていることを示す。
本研究から得られた知見は,遅延クリティカルなアプリケーションに対して効率的かつ効果的な学生モデルを展開するのに役立つ。 Large language models have become a vital component in modern NLP, achieving state of the art performance in a variety of tasks. However, they are often inefficient for real-world deployment due to their expensive inference costs. Knowledge distillation is a promising technique to improve their efficiency while retaining most of their effectiveness. In this paper, we reproduce, compare and analyze several representative methods for task-agnostic (general-purpose) distillation of Transformer language models. Our target of study includes Output Distribution (OD) transfer, Hidden State (HS) transfer with various layer mapping strategies, and Multi-Head Attention (MHA) transfer based on MiniLMv2. Through our extensive experiments, we study the effectiveness of each method for various student architectures in both monolingual (English) and multilingual settings. Overall, we show that MHA transfer based on MiniLMv2 is generally the best option for distillation and explain the potential reasons behind its success. Moreover, we show that HS transfer remains as a competitive baseline, especially under a sophisticated layer mapping strategy, while OD transfer consistently lags behind other approaches. Findings from this study helped us deploy efficient yet effective student models for latency-critical applications. | 翻訳日:2023-10-16 14:52:15 公開日:2023-10-13 |
# エンド・ツー・エンドのストーリープロット生成装置 End-to-end Story Plot Generator ( http://arxiv.org/abs/2310.08796v1 ) ライセンス: Link先を確認 | Hanlin Zhu, Andrew Cohen, Danqing Wang, Kevin Yang, Xiaomeng Yang, Jiantao Jiao, Yuandong Tian | (参考訳) ストーリープロットは短くても、何万語もの単語を含むかもしれないフルストーリーの本質的な情報の大半を担っている。
本研究では,ストーリーの前提,キャラクタ記述,プロットアウトラインなどを含むストーリープロットの自動生成の問題について検討する。
単一のプロットを生成するには、既存のプロットジェネレータ(例えばDOC(Yang et al., 2022a))は、コストがかかり、少なくとも数分かかるストーリープロットの計画段階において、数百から数千のLCM(例えばOpenAI API)を呼び出す必要がある。
さらに、この方法のハード配線性はパイプラインを非微分可能とし、プロット生成器の高速特殊化とパーソナライズをブロックする。
本稿では,これらの課題に対処するために, $\textt{OpenPlot}$, $\textt{E2EPlot}$と $\textt{RLPlot}$という3つのモデルを提案する。
openai apiコールをllama2 (touvron et al., 2023)コールに置き換えることで,ストーリプロットの高品質なトレーニングデータセットを安価に生成することができる。
次に、$\texttt{OpenPlot}$によって生成される約13,000のストーリープロットを使用して、教師付き微調整(SFT)によって、エンドツーエンドのストーリープロットジェネレータ$\textt{E2EPlot}$をトレーニングします。
$\texttt{e2eplot}$は$\texttt{openplot}$に匹敵する品質のストーリープロットを生成し、10$\times$より高速である(平均して30秒で1kトークンが生成される)。
最後に、ストーリー品質の異なる面でRLHFでさらに微調整された$\texttt{RLPlot}$を取得し、サスペンスとサプライズという側面に沿って$\texttt{E2EPlot}$に対して60.0$\%$の勝利率を得る。 Story plots, while short, carry most of the essential information of a full story that may contain tens of thousands of words. We study the problem of automatic generation of story plots, which includes story premise, character descriptions, plot outlines, etc. To generate a single engaging plot, existing plot generators (e.g., DOC (Yang et al., 2022a)) require hundreds to thousands of calls to LLMs (e.g., OpenAI API) in the planning stage of the story plot, which is costly and takes at least several minutes. Moreover, the hard-wired nature of the method makes the pipeline non-differentiable, blocking fast specialization and personalization of the plot generator. In this paper, we propose three models, $\texttt{OpenPlot}$, $\texttt{E2EPlot}$ and $\texttt{RLPlot}$, to address these challenges. $\texttt{OpenPlot}$ replaces expensive OpenAI API calls with LLaMA2 (Touvron et al., 2023) calls via careful prompt designs, which leads to inexpensive generation of high-quality training datasets of story plots. We then train an end-to-end story plot generator, $\texttt{E2EPlot}$, by supervised fine-tuning (SFT) using approximately 13000 story plots generated by $\texttt{OpenPlot}$. $\texttt{E2EPlot}$ generates story plots of comparable quality to $\texttt{OpenPlot}$, and is > 10$\times$ faster (1k tokens in only 30 seconds on average). Finally, we obtain $\texttt{RLPlot}$ that is further fine-tuned with RLHF on several different reward models for different aspects of story quality, which yields 60.0$\%$ winning rate against $\texttt{E2EPlot}$ along the aspect of suspense and surprise. | 翻訳日:2023-10-16 14:51:56 公開日:2023-10-13 |
# バイアスの追従による質問応答モデルに対するバイアス緩和 Mitigating Bias for Question Answering Models by Tracking Bias Influence ( http://arxiv.org/abs/2310.08795v1 ) ライセンス: Link先を確認 | Mingyu Derek Ma, Jiun-Yu Kao, Arpit Gupta, Yu-Hsiang Lin, Wenbo Zhao, Tagyoung Chung, Wei Wang, Kai-Wei Chang, Nanyun Peng | (参考訳) 様々なNLPタスクのモデルはステレオタイプを示すことが示されており、QA(QA)モデルのバイアスは特に有害であり、出力回答はエンドユーザーが直接消費する可能性がある。
QAモデルのバイアスを評価するデータセットは存在するが、QAモデルのバイアス緩和技術はまだ未検討である。
本研究では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
モデルがバイアスのある例から学んだ場合、よりバイアスがかかるように傾くという直感に基づいて、別のインスタンスへの影響を観察して、クエリインスタンスのバイアスレベルを測定します。
影響のあるインスタンスがよりバイアスを受ければ、クエリインスタンスはバイアスを受けます。
次に、最適化目的として検出されたバイアスレベルを用いて、元のQAタスクに加えてマルチタスク学習環境を構築する。
さらに,包括的かつ敏感な方法でバイアスを定量化する新しいバイアス評価指標を導入する。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
BBQデータセットの9つのバイアスカテゴリのバイアスレベルを、同等のQA精度を維持しながら大幅に低減することができる。 Models of various NLP tasks have been shown to exhibit stereotypes, and the bias in the question answering (QA) models is especially harmful as the output answers might be directly consumed by the end users. There have been datasets to evaluate bias in QA models, while bias mitigation technique for the QA models is still under-explored. In this work, we propose BMBI, an approach to mitigate the bias of multiple-choice QA models. Based on the intuition that a model would lean to be more biased if it learns from a biased example, we measure the bias level of a query instance by observing its influence on another instance. If the influenced instance is more biased, we derive that the query instance is biased. We then use the bias level detected as an optimization objective to form a multi-task learning setting in addition to the original QA task. We further introduce a new bias evaluation metric to quantify bias in a comprehensive and sensitive way. We show that our method could be applied to multiple QA formulations across multiple bias categories. It can significantly reduce the bias level in all 9 bias categories in the BBQ dataset while maintaining comparable QA accuracy. | 翻訳日:2023-10-16 14:51:12 公開日:2023-10-13 |
# 機械学習支援ERROT負荷予測における気象・時間特性の解析 Analysis of Weather and Time Features in Machine Learning-aided ERCOT Load Forecasting ( http://arxiv.org/abs/2310.08793v1 ) ライセンス: Link先を確認 | Jonathan Yang, Mingjian Tuo, Jin Lu, Xingpeng Li | (参考訳) 電力系統の効率的かつ信頼性の高い運転には正確な負荷予測が重要である。
電力消費の大部分は気象条件に影響され、気象情報は電力消費の重要な決定要因となっている。
パーソナルアプライアンスや産業機器は、時間的パターンによる電力需要にも大きく寄与し、負荷予測に有用な要因となっている。
本研究は,短期システム全体の総負荷を予測するための入力機能の一部として,さまざまな時間と天気情報を取得する機械学習(ML)モデルを開発する。
また、異なる気象要因が予測精度に与える影響を調査・比較するためにアブレーション研究を行った。
同じ地域の実際の負荷と過去の気象データを処理し、MLモデルのトレーニングに使用した。
ロードに関連付けられる可能性のあるすべての利用可能な機能を使用することで、最高の予測性能を達成することはあり得ない、冗長性を持つ機能によってmlモデルの推論能力が低下する可能性があることは興味深い。
これはMLモデルにおける特徴選択の重要性を示している。
総合的なケーススタディでは、ESROT負荷予測のための異なる天候と時間入力特性で訓練されたMLモデルの有効性が示された。 Accurate load forecasting is critical for efficient and reliable operations of the electric power system. A large part of electricity consumption is affected by weather conditions, making weather information an important determinant of electricity usage. Personal appliances and industry equipment also contribute significantly to electricity demand with temporal patterns, making time a useful factor to consider in load forecasting. This work develops several machine learning (ML) models that take various time and weather information as part of the input features to predict the short-term system-wide total load. Ablation studies were also performed to investigate and compare the impacts of different weather factors on the prediction accuracy. Actual load and historical weather data for the same region were processed and then used to train the ML models. It is interesting to observe that using all available features, each of which may be correlated to the load, is unlikely to achieve the best forecasting performance; features with redundancy may even decrease the inference capabilities of ML models. This indicates the importance of feature selection for ML models. Overall, case studies demonstrated the effectiveness of ML models trained with different weather and time input features for ERCOT load forecasting. | 翻訳日:2023-10-16 14:50:54 公開日:2023-10-13 |
# 都市ドローンナビゲーション:空気力学のためのオートエンコーダ学習融合 Urban Drone Navigation: Autoencoder Learning Fusion for Aerodynamics ( http://arxiv.org/abs/2310.08830v1 ) ライセンス: Link先を確認 | Jiaohao Wu, Yang Ye, Jing Du | (参考訳) ドローンは、建物や風などの障害物のある動的環境を航行することの難しさから、都市緊急捜索救難(sar)に不可欠である。
本稿では,多目的強化学習(MORL)と畳み込みオートエンコーダを組み合わせることで,都市SARにおけるドローンナビゲーションを改善する手法を提案する。
このアプローチではmorlを使って複数の目標を達成し、autoencoderを使ってコスト効率のよい風をシミュレーションする。
都市レイアウトの画像データを利用することで、ドローンはナビゲーションの決定を自律的に行い、経路を最適化し、従来のセンサーなしで風の影響に対抗することができる。
ニューヨーク市のモデルでテストされたこの方法は、複雑な都市環境でのドローンSAR操作を強化する。 Drones are vital for urban emergency search and rescue (SAR) due to the challenges of navigating dynamic environments with obstacles like buildings and wind. This paper presents a method that combines multi-objective reinforcement learning (MORL) with a convolutional autoencoder to improve drone navigation in urban SAR. The approach uses MORL to achieve multiple goals and the autoencoder for cost-effective wind simulations. By utilizing imagery data of urban layouts, the drone can autonomously make navigation decisions, optimize paths, and counteract wind effects without traditional sensors. Tested on a New York City model, this method enhances drone SAR operations in complex urban settings. | 翻訳日:2023-10-16 14:45:27 公開日:2023-10-13 |
# 実世界の自動運転におけるマルチモーダル3次元意味セグメンテーションの再検討 Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous Driving ( http://arxiv.org/abs/2310.08826v1 ) ライセンス: Link先を確認 | Feng Jiang, Chaoping Tu, Gang Zhang, Jun Li, Hanqing Huang, Junyu Lin, Di Feng, Jian Pu | (参考訳) lidarとカメラは、マルチモーダルな3dセマンティクスセグメンテーションのための2つの重要なセンサーであり、様々な現実世界のシナリオで安全性を約束するために効率的かつロバストに融合されるはずである。
しかし、既存のマルチモーダルメソッドには2つの大きな課題がある。
1)効率的なデプロイメントとリアルタイム実行の難しさ
2)LiDARとカメラの弱い校正下での劇的な性能劣化
これらの課題に対処するため,LiDAR専用CPGNetを拡張した新しいマルチモーダル融合フレームワークであるCPGNet-LCFを提案する。
CPGNet-LCFは、CPGNetのデプロイとリアルタイム機能を継承することで、最初の課題を解決する。
第2の課題として, 弱キャリブレーションに対するロバスト性を改善するために, 訓練中の弱キャリブレーション知識蒸留戦略を提案する。
CPGNet-LCFはnuScenesとSemanticKITTIベンチマークで最先端のパフォーマンスを達成する。
驚くべきことに、tensorrt tf16モードを使用して、単一のtesla v100 gpu上で1フレーム20msで簡単にデプロイできる。
さらに、4つの弱いキャリブレーションレベルに対するパフォーマンスのベンチマークを行い,提案手法の頑健性を示す。 LiDAR and camera are two critical sensors for multi-modal 3D semantic segmentation and are supposed to be fused efficiently and robustly to promise safety in various real-world scenarios. However, existing multi-modal methods face two key challenges: 1) difficulty with efficient deployment and real-time execution; and 2) drastic performance degradation under weak calibration between LiDAR and cameras. To address these challenges, we propose CPGNet-LCF, a new multi-modal fusion framework extending the LiDAR-only CPGNet. CPGNet-LCF solves the first challenge by inheriting the easy deployment and real-time capabilities of CPGNet. For the second challenge, we introduce a novel weak calibration knowledge distillation strategy during training to improve the robustness against the weak calibration. CPGNet-LCF achieves state-of-the-art performance on the nuScenes and SemanticKITTI benchmarks. Remarkably, it can be easily deployed to run in 20ms per frame on a single Tesla V100 GPU using TensorRT TF16 mode. Furthermore, we benchmark performance over four weak calibration levels, demonstrating the robustness of our proposed approach. | 翻訳日:2023-10-16 14:45:14 公開日:2023-10-13 |
# CLIPからDINO: マルチモーダル大規模言語モデルにおけるビジュアルエンコーダ From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models ( http://arxiv.org/abs/2310.08825v1 ) ライセンス: Link先を確認 | Dongsheng Jiang, Yuchen Liu, Songlin Liu, Xiaopeng Zhang, Jin Li, Hongkai Xiong, Qi Tian | (参考訳) マルチモーダル大言語モデル(mllm)は、視覚知覚インタフェースの組み込みを通じて、大言語モデル(llm)の能力を拡大する上で大きな進歩を遂げた。
エキサイティングなアプリケーションが現れ、多様な命令チューニングデータが利用可能になったにもかかわらず、既存のアプローチはしばしばビジュアルブランチとしてクリップやその変種に依存し、深層からフィーチャを抽出するだけである。
しかし、これらの手法はMLLMの視覚エンコーダの包括的解析を欠いている。
本稿では,MLLM内の異なる視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
驚くべきことに、テキストイメージアライメントを事前トレーニングしていないビジョンのみのモデルであるDINOは、MLLM内のビジュアルブランチとして有望なパフォーマンスを示している。
単にアライメントのためのMDP層を装備することで、DINOはきめ細かな関連する知覚タスクにおいてCLIPを追い越す。
これらの観測に基づいて,CLIPとDINOとMergingを統合し,MLLMの視覚能力を高めるシンプルな機能統合戦略であるCOMMを提案する。
我々は,画像キャプション,視覚的質問応答,視覚的接地,物体幻覚など,幅広いベンチマークの総合的な実験を通じてCOMMを評価する。
実験の結果,既存の手法と比較してCOMMの性能が優れており,MLLM内の視覚能力の向上が示されている。
コードはhttps://github.com/yuchenliu98/commで入手できる。 Multi-modal Large Language Models (MLLMs) have made significant strides in expanding the capabilities of Large Language Models (LLMs) through the incorporation of visual perception interfaces. Despite the emergence of exciting applications and the availability of diverse instruction tuning data, existing approaches often rely on CLIP or its variants as the visual branch, and merely extract features from the deep layers. However, these methods lack a comprehensive analysis of the visual encoders in MLLMs. In this paper, we conduct an extensive investigation into the effectiveness of different vision encoders within MLLMs. Our findings reveal that the shallow layer features of CLIP offer particular advantages for fine-grained tasks such as grounding and region understanding. Surprisingly, the vision-only model DINO, which is not pretrained with text-image alignment, demonstrates promising performance as a visual branch within MLLMs. By simply equipping it with an MLP layer for alignment, DINO surpasses CLIP in fine-grained related perception tasks. Building upon these observations, we propose a simple yet effective feature merging strategy, named COMM, that integrates CLIP and DINO with Multi-level features Merging, to enhance the visual capabilities of MLLMs. We evaluate COMM through comprehensive experiments on a wide range of benchmarks, including image captioning, visual question answering, visual grounding, and object hallucination. Experimental results demonstrate the superior performance of COMM compared to existing methods, showcasing its enhanced visual capabilities within MLLMs. Code will be made available at https://github.com/YuchenLiu98/COMM. | 翻訳日:2023-10-16 14:44:53 公開日:2023-10-13 |
# ヒューマンaiチームによるロバスト政策の改善 Confounding-Robust Policy Improvement with Human-AI Teams ( http://arxiv.org/abs/2310.08824v1 ) ライセンス: Link先を確認 | Ruijiang Gao, Mingzhang Yin | (参考訳) 人間とAIのコラボレーションは、人間のエキスパートと人工知能(AI)システムの補完的な強みを活用することで、さまざまなドメインを変革する可能性がある。
しかし、観測されていないコンファウンディングは、このコラボレーションの有効性を損なう可能性がある。
本稿では, 限界感度モデル(MSM)を用いて, 人間とAIの協調作業における非観測的共起に対処する新しい手法を提案する。
私たちのアプローチは、ドメインの専門知識とai駆動の統計モデリングを組み合わせることで、隠れている可能性のある共同創設者を考慮します。
本稿では,MSMを観測データからポリシー学習に組み込むための遅延協調フレームワークを提案する。
さらに,異なる意思決定者の多様な専門知識を活用するために,個人化された推論協調システムを提案する。
潜在的なバイアスの調整により,提案手法は協調結果のロバスト性と信頼性を高める。
実証的および理論的分析は, 人類とAIの協力関係を緩和し, 全体的な業績を向上させるためのアプローチの有効性を示した。 Human-AI collaboration has the potential to transform various domains by leveraging the complementary strengths of human experts and Artificial Intelligence (AI) systems. However, unobserved confounding can undermine the effectiveness of this collaboration, leading to biased and unreliable outcomes. In this paper, we propose a novel solution to address unobserved confounding in human-AI collaboration by employing the marginal sensitivity model (MSM). Our approach combines domain expertise with AI-driven statistical modeling to account for potential confounders that may otherwise remain hidden. We present a deferral collaboration framework for incorporating the MSM into policy learning from observational data, enabling the system to control for the influence of unobserved confounding factors. In addition, we propose a personalized deferral collaboration system to leverage the diverse expertise of different human decision-makers. By adjusting for potential biases, our proposed solution enhances the robustness and reliability of collaborative outcomes. The empirical and theoretical analyses demonstrate the efficacy of our approach in mitigating unobserved confounding and improving the overall performance of human-AI collaborations. | 翻訳日:2023-10-16 14:44:25 公開日:2023-10-13 |
# 準最適記述を用いた逆強化学習のための距離ランク対応逐次リワード学習 Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement Learning with Sub-optimal Demonstrations ( http://arxiv.org/abs/2310.08823v1 ) ライセンス: Link先を確認 | Lu Li, Yuxin Pan, Ruobing Chen, Jie Liu, Zilin Wang, Yu Liu, Zhiheng Li | (参考訳) 逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
専門家によるデモンストレーションを得るにはコストがかかるため、現在のIRL技術の焦点は、準最適デモンストレーションから得られる報酬関数を用いて、より優れた実証者ポリシーを学ぶことである。
しかし、既存のIRLアルゴリズムは、報酬関数を学習する際の軌跡ランキングの曖昧さに対処する。
彼らは、報酬の曖昧さをさらに取り除くのに不可欠である、リターンの観点で軌道間の差異の程度を考慮する重要な役割を見逃している。
さらに、単一遷移の報酬が軌道内の文脈情報に大きく影響していることに注意する必要がある。
これらの問題に対処するために,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを導入する。
既存のアプローチとは異なり、DRASRLは、文脈的に情報を得た報酬信号のシーケンスを学習する際の報酬のあいまいさを協調的に排除するために、軌跡のランクと両者の相違度の両方を考慮している。
具体的には、トラジェクトリが生成されるポリシー間の距離を、トレース間の差の度合いを定量化する尺度として活用する。
この距離認識情報を用いて、報酬学習のための表現空間への埋め込みを推論し、対照的な学習手法を用いる。
一方、ランキング情報を潜在機能に組み込むために、ペアランキングの損失関数を統合する。
さらに,我々はTransformerアーキテクチャを用いて,潜在空間の軌跡内のコンテキスト依存を捕捉し,より正確な報酬推定を行う。
我々の DRASRL フレームワークは, 大規模な実験を通じて, 従来の SOTA 手法よりも優れた性能を示す。 Inverse reinforcement learning (IRL) aims to explicitly infer an underlying reward function based on collected expert demonstrations. Considering that obtaining expert demonstrations can be costly, the focus of current IRL techniques is on learning a better-than-demonstrator policy using a reward function derived from sub-optimal demonstrations. However, existing IRL algorithms primarily tackle the challenge of trajectory ranking ambiguity when learning the reward function. They overlook the crucial role of considering the degree of difference between trajectories in terms of their returns, which is essential for further removing reward ambiguity. Additionally, it is important to note that the reward of a single transition is heavily influenced by the context information within the trajectory. To address these issues, we introduce the Distance-rank Aware Sequential Reward Learning (DRASRL) framework. Unlike existing approaches, DRASRL takes into account both the ranking of trajectories and the degrees of dissimilarity between them to collaboratively eliminate reward ambiguity when learning a sequence of contextually informed reward signals. Specifically, we leverage the distance between policies, from which the trajectories are generated, as a measure to quantify the degree of differences between traces. This distance-aware information is then used to infer embeddings in the representation space for reward learning, employing the contrastive learning technique. Meanwhile, we integrate the pairwise ranking loss function to incorporate ranking information into the latent features. Moreover, we resort to the Transformer architecture to capture the contextual dependencies within the trajectories in the latent space, leading to more accurate reward estimation. Through extensive experimentation, our DRASRL framework demonstrates significant performance improvements over previous SOTA methods. | 翻訳日:2023-10-16 14:44:07 公開日:2023-10-13 |
# 3次元分割のためのSAM誘導非教師付きドメイン適応 SAM-guided Unsupervised Domain Adaptation for 3D Segmentation ( http://arxiv.org/abs/2310.08820v1 ) ライセンス: Link先を確認 | Xidong Peng, Runnan Chen, Feng Qiao, Lingdong Kong, Youquan Liu, Tai Wang, Xinge Zhu, Yuexin Ma | (参考訳) 3Dセグメンテーションタスクにおける非教師なしドメイン適応(UDA)は、主にポイントクラウドデータの希薄で非秩序な性質から生じる、恐ろしい挑戦である。
特にLiDARの点雲では、様々な撮影シーン、変動する気象条件、使用中の様々なLiDARデバイス間でドメインの差が明らかになる。
従来のUDA手法では、ソースとターゲットのドメイン間の特徴を整列させることで、このギャップを緩和しようと試みてきたが、ドメインのかなりの変動により、3Dセグメンテーションに適用した場合、このアプローチは不十分である。
イメージセグメンテーションの領域において、視覚基盤モデルSAMが示す顕著な一般化能力に着想を得て、SAM内に埋め込まれた豊富な一般知識を活用し、多様な3次元領域にまたがる特徴表現を統一し、さらに3次元領域適応問題を解く。
具体的には,ポイントクラウドに関連する画像を用いて知識伝達を容易にするとともに,3d特徴空間とsam特徴空間のアライメントを著しく向上し,シーンレベルとインスタンスレベルの両方で動作する,革新的なハイブリッド特徴拡張手法を提案する。
本手法は,広く認識されたデータセット上で評価され,最先端の性能を実現する。 Unsupervised domain adaptation (UDA) in 3D segmentation tasks presents a formidable challenge, primarily stemming from the sparse and unordered nature of point cloud data. Especially for LiDAR point clouds, the domain discrepancy becomes obvious across varying capture scenes, fluctuating weather conditions, and the diverse array of LiDAR devices in use. While previous UDA methodologies have often sought to mitigate this gap by aligning features between source and target domains, this approach falls short when applied to 3D segmentation due to the substantial domain variations. Inspired by the remarkable generalization capabilities exhibited by the vision foundation model, SAM, in the realm of image segmentation, our approach leverages the wealth of general knowledge embedded within SAM to unify feature representations across diverse 3D domains and further solves the 3D domain adaptation problem. Specifically, we harness the corresponding images associated with point clouds to facilitate knowledge transfer and propose an innovative hybrid feature augmentation methodology, which significantly enhances the alignment between the 3D feature space and SAM's feature space, operating at both the scene and instance levels. Our method is evaluated on many widely-recognized datasets and achieves state-of-the-art performance. | 翻訳日:2023-10-16 14:43:39 公開日:2023-10-13 |
# フロッケ非可換位相絶縁体と多次元バルクエッジ対応 Floquet Non-Abelian Topological Insulator and Multifold Bulk-Edge Correspondence ( http://arxiv.org/abs/2310.08819v1 ) ライセンス: Link先を確認 | Tianyu Li and Haiping Hu | (参考訳) 非可換電荷によって特徴づけられる位相相は、パラダイム的テンフォールド法の範囲を超え、近年注目を集めている。
そこで本研究では,Floquet設定における複数の絡み合ったギャップを持つトポロジカル絶縁体について検討し,静的あるいはアベリア的アナログを伴わずにFloquet非アベリアトポロジカル絶縁体を同定する。
バルクエッジ対応は多重であり、四元数群$Q_8$の乗法則に従うことを示した。
同じ四元電荷は、時間発展の位相バンド特異点によって完全に決定されるいくつかの異なるエッジ状態構成に対応する。
異常な非可換位相では、自明な四元電荷にもかかわらず全てのバンドギャップにエッジ状態が現れる。
さらに、エキゾチックなスワップ効果(スワップ駆動によるインタフェースモードの出現)を明らかにし、これは非アベリア力学の記号であり、フロケアベリア系では欠落している。
我々の研究は、初めて、非アベリア電荷を特徴とするフロケトポロジカル絶縁体を提示し、非平衡トポロジカル位相の豊かな領域を探索するエキサイティングな可能性を開く。 Topological phases characterized by non-Abelian charges are beyond the scope of the paradigmatic tenfold way and have gained increasing attention recently. Here we investigate topological insulators with multiple tangled gaps in Floquet settings and identify uncharted Floquet non-Abelian topological insulators without any static or Abelian analog. We demonstrate that the bulk-edge correspondence is multifold and follows the multiplication rule of the quaternion group $Q_8$. The same quaternion charge corresponds to several distinct edge-state configurations that are fully determined by phase-band singularities of the time evolution. In the anomalous non-Abelian phase, edge states appear in all bandgaps despite trivial quaternion charge. Furthermore, we uncover an exotic swap effect -- the emergence of interface modes with swapped driving, which is a signature of the non-Abelian dynamics and absent in Floquet Abelian systems. Our work, for the first time, presents Floquet topological insulators characterized by non-Abelian charges and opens up exciting possibilities for exploring the rich and uncharted territory of non-equilibrium topological phases. | 翻訳日:2023-10-16 14:43:16 公開日:2023-10-13 |
# 大規模回答過程における応答時間列と不眠症の重症度の関係:機械学習アプローチ Exploring the relationship between response time sequence in scale answering process and severity of insomnia: a machine learning approach ( http://arxiv.org/abs/2310.08817v1 ) ライセンス: Link先を確認 | Zhao Su, Rongxun Liu, Keyin Zhou, Xinru Wei, Ning Wang, Zexin Lin, Yuanchen Xie, Jie Wang, Fei Wang, Shenzhong Zhang, Xizhe Zhang | (参考訳) 目的: 不眠症と反応時間の関係を明らかにすることを目的とした。
さらに、反応時間データを用いて、参加者の不眠症の有無を予測する機械学習モデルの開発も目指している。
方法: モバイルアプリケーションはスケールテストを管理し,2729人の参加者から応答時間データを収集するように設計された。
症状の重症度と応答時間の関係を調査し,不眠症の有無を予測するための機械学習モデルを開発した。
結果: 不眠症の有無にかかわらず, 総反応時間において統計的に有意な差(p<.001)を認めた。
特定の不眠症の重症度と個々の質問レベルでの反応時間との間に相関が認められた。
機械学習モデルは、応答時間データに基づく不眠症症状の予測において、0.743の高い予測精度を示した。
結論: 本研究は, 認知的, 心理的指標を評価するための応答時間データの有用性を浮き彫りにし, 不眠症の診断ツールとしての応答時間の有効性を実証した。 Objectives: The study aims to investigate the relationship between insomnia and response time. Additionally, it aims to develop a machine learning model to predict the presence of insomnia in participants using response time data. Methods: A mobile application was designed to administer scale tests and collect response time data from 2729 participants. The relationship between symptom severity and response time was explored, and a machine learning model was developed to predict the presence of insomnia. Results: The result revealed a statistically significant difference (p<.001) in the total response time between participants with or without insomnia symptoms. A correlation was observed between the severity of specific insomnia aspects and response times at the individual questions level. The machine learning model demonstrated a high predictive accuracy of 0.743 in predicting insomnia symptoms based on response time data. Conclusions: These findings highlight the potential utility of response time data to evaluate cognitive and psychological measures, demonstrating the effectiveness of using response time as a diagnostic tool in the assessment of insomnia. | 翻訳日:2023-10-16 14:42:53 公開日:2023-10-13 |
# CLIPによるインクリメンタルオブジェクト検出 Incremental Object Detection with CLIP ( http://arxiv.org/abs/2310.08815v1 ) ライセンス: Link先を確認 | Yupeng He, Ziyue Huang, Qingjie Liu, Yunhong Wang | (参考訳) 漸進的検出タスクでは、インクリメンタルな分類タスクとは異なり、複数の連続的な学習段階においてラベル付き境界ボックスが異なるイメージが存在するため、データのあいまいさが存在する。
この現象は、しばしばモデルが新しいクラスを学ぶ能力を妨げる。
しかし、モデルの前方互換性は既存の作業では考慮されていないため、漸進的な学習に対するモデルの適合性を妨げている。
この課題を克服するために,クリップなどの言語-視覚モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成することを提案する。
次に,未使用の新規クラスを早期学習段階に置き換え,実際のインクリメンタルシナリオをシミュレートするために,幅広いクラスを採用する。
最後に、CLIP画像エンコーダを用いて、提案の潜在的なオブジェクトを特定し、モデルによって背景に分類する。
これらの提案の背景ラベルを既知のクラスに修正し、トレーニングセットにボックスを追加して、データのあいまいさを軽減します。
我々は,PASCAL VOC 2007データセットの様々な漸進的学習設定に対するアプローチを評価し,そのアプローチは,特に新しいクラスにおいて最先端の手法よりも優れていることを示した。 In the incremental detection task, unlike the incremental classification task, data ambiguity exists due to the possibility of an image having different labeled bounding boxes in multiple continuous learning stages. This phenomenon often impairs the model's ability to learn new classes. However, the forward compatibility of the model is less considered in existing work, which hinders the model's suitability for incremental learning. To overcome this obstacle, we propose to use a language-visual model such as CLIP to generate text feature embeddings for different class sets, which enhances the feature space globally. We then employ the broad classes to replace the unavailable novel classes in the early learning stage to simulate the actual incremental scenario. Finally, we use the CLIP image encoder to identify potential objects in the proposals, which are classified into the background by the model. We modify the background labels of those proposals to known classes and add the boxes to the training set to alleviate the problem of data ambiguity. We evaluate our approach on various incremental learning settings on the PASCAL VOC 2007 dataset, and our approach outperforms state-of-the-art methods, particularly for the new classes. | 翻訳日:2023-10-16 14:42:38 公開日:2023-10-13 |
# 時間非依存ハミルトニアン進化のための統一量子速度限界 A Unifying Quantum Speed Limit For Time-Independent Hamiltonian Evolution ( http://arxiv.org/abs/2310.08813v1 ) ライセンス: Link先を確認 | H. F. Chau and Wenxin Zeng | (参考訳) 量子速度制限 (quantum speed limit, qsl) は、量子系の進化時間に関する基本的な限界の研究である。
例えば、時間非依存ハミルトニアンの作用の下では、初期状態と最終量子状態の間の進化時間は様々な相互補完的な下界に従う。
マンデルシュタム線、マルゴラス-レヴィタン線、ルオ-張線、リー-チャウ線がある。
ここでは、あるパラメータ上でリー-チャウ境界を最適化することにより、マンデルスタム-タム境界が得られることを示す。
さらに、量子系の物理的に無意味な参照エネルギーレベルを最適化する前に、上記すべての境界を特別なケースとして含むQSLを報告する。
この統一境界は、特定のパラメータ $p$ に依存する。
固定された$p$の場合、時間に依存しないハミルトン状態と初期純量子状態の全てのペアが、この統一境界を飽和させる。
より重要なことに、これらのペアは、量子状態のエネルギーの絶対値に関連する特定の$p$thモーメントを返すオラクルを使って、この境界を正確かつ効率的に計算できる。
さらに、この神託は有限次元量子系および有界かつ連続エネルギースペクトルを持つある種の無限次元量子状態に対する計算効率が高く正確なアルゴリズムによってシミュレートすることができる。
さらに、このバウンドのパフォーマンスを、固定された$p$の場合と、既存のqslと$p$を超える最適化の場合と比較します。
基礎となるヒルベルト空間の次元が$\lesssim 2000$であれば、通常のデスクトップでjust-in-timeコンパイルのmathematicaコードを使って、$p$よりも最適化された統一境界を数分で正確に計算できる。
さらに、この最適化された統合QSLは、すべての既存のQSLが組み合わされ、時には数パーセントから数倍改善される可能性がある。 Quantum speed limit (QSL) is the study of fundamental limits on the evolution time of quantum systems. For instance, under the action of a time-independent Hamiltonian, the evolution time between an initial and a final quantum state obeys various mutually complementary lower bounds. They include the Mandelstam-Tamm bound, the Margolus-Levitin bound, the Luo-Zhang bound and the Lee-Chau bound. Here we show that the Mandelstam-Tamm bound can be obtained by optimizing the Lee-Chau bound over a certain parameter. More importantly, we report a QSL that includes all the above bounds as special cases before optimizing over the physically meaningless reference energy level of a quantum system. This unifying bound depends on a certain parameter $p$. For any fixed $p$, we find all pairs of time-independent Hamiltonian and initial pure quantum state that saturate this unifying bound. More importantly, these pairs allow us to compute this bound accurately and efficiently using an oracle that returns certain $p$th moments related to the absolute value of energy of the quantum state. Moreover, this oracle can be simulated by a computationally efficient and accurate algorithm for finite-dimensional quantum systems as well as for certain infinite-dimensional quantum states with bounded and continuous energy spectra. We further compare the performance of this bound for the case of a fixed $p$ as well as the case of optimizing over $p$ with existing QSLs. We find that if the dimension of the underlying Hilbert space is $\lesssim 2000$, our unifying bound optimized over $p$ can be computed accurately in a few minutes using Mathematica code with just-in-time compilation in a typical desktop. Besides, this optimized unifying QSL is at least as good as all the existing ones combined and can occasionally be a few percent to a few times better. | 翻訳日:2023-10-16 14:42:17 公開日:2023-10-13 |
# 人工知能における機能的透明性向上への道のり Path To Gain Functional Transparency In Artificial Intelligence With Meaningful Explainability ( http://arxiv.org/abs/2310.08849v1 ) ライセンス: Link先を確認 | Md. Tanzib Hosain, Mehedi Hasan Anik, Sadman Rafi, Rana Tabassum, Khaleque Insia, Md. Mehrab Siddiky | (参考訳) 人工知能(AI)は、ターゲット広告やマッチングアルゴリズムなどの分野で意思決定プロセスに影響を与える、私たちの日常生活のさまざまな側面に急速に統合されています。
AIシステムがますます高度化するにつれて、透明性と説明可能性の確保が重要になる。
機能的透明性はアルゴリズムによる意思決定システムの基本的側面であり、ステークホルダーはこれらのシステムの内部動作を理解し、公正さと正確さを評価することができる。
しかし、機能的な透明性を達成することは、対処すべき重要な課題となる。
本稿では,透過的システムにおけるユーザ中心のコンプライアント・バイ・デザインの透過性の設計を提案する。
透明で説明可能なaiシステムの開発は、コンピュータサイエンス、人工知能、倫理、法、社会科学といった様々な分野の研究者の協力を必要とする、複雑で多分野の努力である。
AIシステムにおける透明性に関連する課題を包括的に理解し、ユーザ中心の設計フレームワークを提案することにより、説明責任、信頼性、社会的価値との整合性を備えたAIシステムの開発を促進することを目指している。 Artificial Intelligence (AI) is rapidly integrating into various aspects of our daily lives, influencing decision-making processes in areas such as targeted advertising and matchmaking algorithms. As AI systems become increasingly sophisticated, ensuring their transparency and explainability becomes crucial. Functional transparency is a fundamental aspect of algorithmic decision-making systems, allowing stakeholders to comprehend the inner workings of these systems and enabling them to evaluate their fairness and accuracy. However, achieving functional transparency poses significant challenges that need to be addressed. In this paper, we propose a design for user-centered compliant-by-design transparency in transparent systems. We emphasize that the development of transparent and explainable AI systems is a complex and multidisciplinary endeavor, necessitating collaboration among researchers from diverse fields such as computer science, artificial intelligence, ethics, law, and social science. By providing a comprehensive understanding of the challenges associated with transparency in AI systems and proposing a user-centered design framework, we aim to facilitate the development of AI systems that are accountable, trustworthy, and aligned with societal values. | 翻訳日:2023-10-16 14:34:10 公開日:2023-10-13 |
# 時系列分類のための半教師付きエンドツーエンドコントラスト学習 Semi-Supervised End-To-End Contrastive Learning For Time Series Classification ( http://arxiv.org/abs/2310.08848v1 ) ライセンス: Link先を確認 | Huili Cai, Xiang Zhang and Xiaofeng Liu | (参考訳) 時系列分類は、金融、医療、センサーデータ分析など、さまざまな分野において重要な課題である。
教師なしのコントラスト学習は、限られたラベルで時系列データから効果的な表現を学ぶことに大きな関心を集めている。
既存のコントラスト学習手法における一般的なアプローチは、ラベルなしデータセットでエンコーダを事前訓練することと、小規模ラベル付きデータセットでよく訓練されたモデルを微調整することの2つの段階からなる。
しかし、このような2段階のアプローチは、下流の微調整型分類器に直接影響を及ぼす教師なし事前訓練による対照的な損失の欠如や、貴重な基底真理によって導かれる分類損失の活用の欠如など、いくつかの欠点に悩まされている。
本稿では,SLOTS(Semi-supervised Learning fOr Time clasSification)と呼ばれるエンドツーエンドモデルを提案する。
SLOTSは、多数のラベル付きサンプルと少数のラベル付きサンプルからなる半ラベル付きデータセットを受信し、エンコーダを介して埋め込み空間にマップする。
我々は、教師なしのコントラスト損失だけでなく、サンプルの教師なしコントラスト損失と基底真理を測定する。
学習した埋め込みを分類器に入力し、利用可能な真のラベルを用いて分類損失を算出する。
教師なし、教師なしのコントラスト損失と分類損失は、エンコーダと分類器を最適化するために共同で使用される。
SLOTSを5つのデータセットで10の最先端手法と比較することにより評価する。
その結果,SLOTSはシンプルだが効果的なフレームワークであることがわかった。
2段階のフレームワークと比較して、エンドツーエンドのSLOTSは同じ入力データを使用し、同様の計算コストを消費するが、性能は大幅に向上する。
コードとデータセットはhttps://anonymous.4open.science/r/SLOTS-242Eで公開しています。 Time series classification is a critical task in various domains, such as finance, healthcare, and sensor data analysis. Unsupervised contrastive learning has garnered significant interest in learning effective representations from time series data with limited labels. The prevalent approach in existing contrastive learning methods consists of two separate stages: pre-training the encoder on unlabeled datasets and fine-tuning the well-trained model on a small-scale labeled dataset. However, such two-stage approaches suffer from several shortcomings, such as the inability of unsupervised pre-training contrastive loss to directly affect downstream fine-tuning classifiers, and the lack of exploiting the classification loss which is guided by valuable ground truth. In this paper, we propose an end-to-end model called SLOTS (Semi-supervised Learning fOr Time clasSification). SLOTS receives semi-labeled datasets, comprising a large number of unlabeled samples and a small proportion of labeled samples, and maps them to an embedding space through an encoder. We calculate not only the unsupervised contrastive loss but also measure the supervised contrastive loss on the samples with ground truth. The learned embeddings are fed into a classifier, and the classification loss is calculated using the available true labels. The unsupervised, supervised contrastive losses and classification loss are jointly used to optimize the encoder and classifier. We evaluate SLOTS by comparing it with ten state-of-the-art methods across five datasets. The results demonstrate that SLOTS is a simple yet effective framework. When compared to the two-stage framework, our end-to-end SLOTS utilizes the same input data, consumes a similar computational cost, but delivers significantly improved performance. We release code and datasets at https://anonymous.4open.science/r/SLOTS-242E. | 翻訳日:2023-10-16 14:33:54 公開日:2023-10-13 |
# 自然, ロバスト, カタストロフィックオーバーフィッティング時の過記憶について On the Over-Memorization During Natural, Robust and Catastrophic Overfitting ( http://arxiv.org/abs/2310.08847v1 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Bo Han, Tongliang Liu | (参考訳) オーバーフィッティングは、自然と敵対両方のトレーニングにおいて、ディープニューラルネットワーク(DNN)の一般化能力に悪影響を及ぼす。
既存の手法は、異なるタイプのオーバーフィッティングに一貫して対処し、通常、自然なパターンと敵対的なパターンに別々にフォーカスする戦略を設計する。
本研究では,自然パターンにのみ焦点をあてて,異なるタイプのオーバーフィッティングを探求する,統一的な視点を採用する。
具体的には,dnnにおける記憶効果を検証し,記憶過剰と呼ばれる共有行動が一般化能力を損なうことを明らかにした。
この行動は、特定のトレーニングパターンを予測し、永続的なメモリを保持する上で、DNNが突然高信頼になるときに現れます。
さらに、DNNが対向パターンを過度に記憶すると、対応する自然パターンに対する高い信頼度予測が同時に現れる傾向にある。
これらの知見は,DNNを記憶過剰な自然パターンから阻害することにより,様々なオーバーフィッティングをホリスティックに緩和する動機となっている。
そこで本研究では,高信頼な自然パターンを削除あるいは強化することにより,過記憶を明示的に防止する一般フレームワークである Distraction Over-Memorization (DOM) を提案する。
様々な訓練パラダイムにまたがるオーバーフィッティングを緩和するための提案手法の有効性を示す。 Overfitting negatively impacts the generalization ability of deep neural networks (DNNs) in both natural and adversarial training. Existing methods struggle to consistently address different types of overfitting, typically designing strategies that focus separately on either natural or adversarial patterns. In this work, we adopt a unified perspective by solely focusing on natural patterns to explore different types of overfitting. Specifically, we examine the memorization effect in DNNs and reveal a shared behaviour termed over-memorization, which impairs their generalization capacity. This behaviour manifests as DNNs suddenly becoming high-confidence in predicting certain training patterns and retaining a persistent memory for them. Furthermore, when DNNs over-memorize an adversarial pattern, they tend to simultaneously exhibit high-confidence prediction for the corresponding natural pattern. These findings motivate us to holistically mitigate different types of overfitting by hindering the DNNs from over-memorization natural patterns. To this end, we propose a general framework, Distraction Over-Memorization (DOM), which explicitly prevents over-memorization by either removing or augmenting the high-confidence natural patterns. Extensive experiments demonstrate the effectiveness of our proposed method in mitigating overfitting across various training paradigms. | 翻訳日:2023-10-16 14:33:24 公開日:2023-10-13 |
# parlerのユーザ談話におけるコンテンツモデレーションの厳格化の影響 Impact of Stricter Content Moderation on Parler's Users' Discourse ( http://arxiv.org/abs/2310.08844v1 ) ライセンス: Link先を確認 | Nihal Kumarswamy, Mohit Singhal, Shirin Nilizadeh | (参考訳) ソーシャルメディアプラットフォームは、有害、攻撃的、ヘイトスピーチコンテンツを除去するために様々なコンテンツモデレーション技術を使用している。
モデレーションレベルはプラットフォームによって異なり、時間とともにプラットフォーム内で進化する可能性がある。
例えば、保守的なユーザーの間で人気のソーシャルメディアプラットフォームであるParlerは、最小限のモデレーションポリシーを持つことで知られており、ユーザのためのオープンな議論スペースを持っていると主張した。
しかし、2021年の米国議会議事堂暴動と、2021年1月12日にQAnonやProud BoysなどのParler上の一部のグループをリンクした後、ParlerはAppleとGoogle App Storeから削除され、Amazon Cloudホスティングサービスから停止された。
Parlerは、これらのオンラインストアに戻るためには、モデレーションポリシーを変更する必要がある。
1ヶ月のダウンタイムの後、パーラーは新しいユーザーガイドラインと共にオンラインに戻り、特に『emph{hate speech}』ポリシーに関して、より厳格なコンテンツモデレーションを反映した。
本稿では,Parlerが行ったモデレーション変化と,その含有量に対する毒性について検討した。
われわれは2021年2月から2022年1月まで、432万のアクティブユーザーから1700万パリーからなる巨大な縦型パーラーデータセットを収集した。
私たちの知る限りでは、データ駆動アプローチによるコンテンツモデレーション手法の有効性と、短い中断後の最初のパーラーデータセットを調査する最初の研究です。
準実験時系列分析の結果,パーラーのモデレーションが変化した後,重篤な毒性形態(しきい値0.5以上)は直ちに減少し持続することが示された。
対照的に、厳格な脅迫や侮辱(0.5から0.7のしきい値)は傾向が変化しなかった。
最後に、共有されているニュースサイトの事実性が向上し、共用する陰謀や偽科学の情報源の数も減少したことが分かりました。 Social media platforms employ various content moderation techniques to remove harmful, offensive, and hate speech content. The moderation level varies across platforms; even over time, it can evolve in a platform. For example, Parler, a fringe social media platform popular among conservative users, was known to have the least restrictive moderation policies, claiming to have open discussion spaces for their users. However, after linking the 2021 US Capitol Riots and the activity of some groups on Parler, such as QAnon and Proud Boys, on January 12, 2021, Parler was removed from the Apple and Google App Store and suspended from Amazon Cloud hosting service. Parler would have to modify their moderation policies to return to these online stores. After a month of downtime, Parler was back online with a new set of user guidelines, which reflected stricter content moderation, especially regarding the \emph{hate speech} policy. In this paper, we studied the moderation changes performed by Parler and their effect on the toxicity of its content. We collected a large longitudinal Parler dataset with 17M parleys from 432K active users from February 2021 to January 2022, after its return to the Internet and App Store. To the best of our knowledge, this is the first study investigating the effectiveness of content moderation techniques using data-driven approaches and also the first Parler dataset after its brief hiatus. Our quasi-experimental time series analysis indicates that after the change in Parler's moderation, the severe forms of toxicity (above a threshold of 0.5) immediately decreased and sustained. In contrast, the trend did not change for less severe threats and insults (a threshold between 0.5 - 0.7). Finally, we found an increase in the factuality of the news sites being shared, as well as a decrease in the number of conspiracy or pseudoscience sources being shared. | 翻訳日:2023-10-16 14:33:04 公開日:2023-10-13 |
# 大規模言語モデルのためのケースベース永続メモリ A Case-Based Persistent Memory for a Large Language Model ( http://arxiv.org/abs/2310.08842v1 ) ライセンス: Link先を確認 | Ian Watson | (参考訳) 問題解決の方法論としてのケースベース推論(CBR)は、任意の適切な計算手法を用いることができる。
本稿では、cbrの研究者がディープラーニングと大規模言語モデル(llm)の最近の進歩を少し見落としていることを論じる。
最近のAIのブレークスルーを可能にした基盤となる技術開発は、CBRと強力なシナジーを持ち、LLMが人工知能に向けて前進するための永続的なメモリを提供するために使用できる。 Case-based reasoning (CBR) as a methodology for problem-solving can use any appropriate computational technique. This position paper argues that CBR researchers have somewhat overlooked recent developments in deep learning and large language models (LLMs). The underlying technical developments that have enabled the recent breakthroughs in AI have strong synergies with CBR and could be used to provide a persistent memory for LLMs to make progress towards Artificial General Intelligence. | 翻訳日:2023-10-16 14:32:30 公開日:2023-10-13 |
# 手術ロボット環境におけるオフライン強化学習のための最適輸送の活用 Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments ( http://arxiv.org/abs/2310.08841v1 ) ライセンス: Link先を確認 | Maryam Zare, Parham M. Kebria, Abbas Khosravi | (参考訳) ほとんどの強化学習(rl)法は、エージェントが直接環境と相互作用し、行動の結果を観察し、試行錯誤を通じて学習するアクティブラーニング環境で伝統的に研究されている。
しかし、部分的に訓練されたエージェントが実際の物理的システムと対話できるようにすることは、高いコスト、安全性のリスク、継続的な監督の必要性など、重大な課題をもたらす。
Offline RLは、既存のデータセットを活用し、リソース集約的なリアルタイムインタラクションの必要性を減らすことで、これらのコストと安全性の問題に対処する。
それでも、大きな課題は、これらのデータセットに報酬を慎重にアノテートする必要性にある。
本稿では,オフライン軌道に報酬を割り当てる革新的なアルゴリズムであるOptimal Transport Reward (OTR)ラベリングについて,少数の高品質な専門家によるデモンストレーションを用いて紹介する。
OTRの中核となる原理は、データセットからラベルのない軌道と専門家によるデモンストレーションの間の最適なアライメントを計算するために、最適輸送(OT)を使用することである。
このアライメントは、報酬信号として効果的に解釈される類似度尺度をもたらす。
オフラインのRLアルゴリズムは、これらの報酬信号を使ってポリシーを学ぶことができる。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
手術ロボット学習に適したSurRoLシミュレーションプラットフォームを活用して,データセットを生成し,OTRアルゴリズムを用いてポリシをトレーニングする。
異なる領域におけるOTRの有効性を実証することにより、その汎用性と、広範囲にわたるRLの展開を高速化する可能性を強調した。 Most Reinforcement Learning (RL) methods are traditionally studied in an active learning setting, where agents directly interact with their environments, observe action outcomes, and learn through trial and error. However, allowing partially trained agents to interact with real physical systems poses significant challenges, including high costs, safety risks, and the need for constant supervision. Offline RL addresses these cost and safety concerns by leveraging existing datasets and reducing the need for resource-intensive real-time interactions. Nevertheless, a substantial challenge lies in the demand for these datasets to be meticulously annotated with rewards. In this paper, we introduce Optimal Transport Reward (OTR) labelling, an innovative algorithm designed to assign rewards to offline trajectories, using a small number of high-quality expert demonstrations. The core principle of OTR involves employing Optimal Transport (OT) to calculate an optimal alignment between an unlabeled trajectory from the dataset and an expert demonstration. This alignment yields a similarity measure that is effectively interpreted as a reward signal. An offline RL algorithm can then utilize these reward signals to learn a policy. This approach circumvents the need for handcrafted rewards, unlocking the potential to harness vast datasets for policy learning. Leveraging the SurRoL simulation platform tailored for surgical robot learning, we generate datasets and employ them to train policies using the OTR algorithm. By demonstrating the efficacy of OTR in a different domain, we emphasize its versatility and its potential to expedite RL deployment across a wide range of fields. | 翻訳日:2023-10-16 14:32:22 公開日:2023-10-13 |
# パーソナライズド・ナレッジ・グラウンドド・対話のためのソース・プランナーとしての大規模言語モデル Large Language Models as Source Planner for Personalized Knowledge-grounded Dialogue ( http://arxiv.org/abs/2310.08840v1 ) ライセンス: Link先を確認 | Hongru Wang, Minda Hu, Yang Deng, Rui Wang, Fei Mi, Weichao Wang, Yasheng Wang, Wai-Chung Kwan, Irwin King, Kam-Fai Wong | (参考訳) オープンドメイン対話システムは通常、より情報的で明確な応答を生成するために異なる知識源を必要とする。
しかし、既存の知識基盤対話システムは、単一の知識ソースにフォーカスするか、複数の知識ソース間の依存関係を見落とし、矛盾やパラドックス的な応答を生じさせる可能性がある。
複数の知識ソースとそれらの間の依存関係を組み込むために,大規模言語モデル(LLM)の,教師なしと教師なしの両方の環境下での計画,理解,導入における異常な能力を活用する新しいフレームワークであるSAFARIを提案する。
具体的には、SAFARIは複数のソースに根ざした知識と応答生成を分離し、ソースを使わない可能性を含む様々な知識ソースへの容易に拡張を可能にする。
そこで本研究では,ペルソナと暗黙的知識の依存関係を初めて考慮した,個人化された知識ベース対話データセットである「textit{\textbf{K}nowledge \textbf{B}ehind \textbf{P}ersona}~(\textbf{KBP})」を構築した。
KBPデータセットによる実験結果から,SAFARIフレームワークはペルソナ一貫性と知識強化の応答を効果的に生成できることが示された。 Open-domain dialogue system usually requires different sources of knowledge to generate more informative and evidential responses. However, existing knowledge-grounded dialogue systems either focus on a single knowledge source or overlook the dependency between multiple sources of knowledge, which may result in generating inconsistent or even paradoxical responses. To incorporate multiple knowledge sources and dependencies between them, we propose SAFARI, a novel framework that leverages the exceptional capabilities of large language models (LLMs) in planning, understanding, and incorporating under both supervised and unsupervised settings. Specifically, SAFARI decouples the knowledge grounding into multiple sources and response generation, which allows easy extension to various knowledge sources including the possibility of not using any sources. To study the problem, we construct a personalized knowledge-grounded dialogue dataset \textit{\textbf{K}nowledge \textbf{B}ehind \textbf{P}ersona}~(\textbf{KBP}), which is the first to consider the dependency between persona and implicit knowledge. Experimental results on the KBP dataset demonstrate that the SAFARI framework can effectively produce persona-consistent and knowledge-enhanced responses. | 翻訳日:2023-10-16 14:31:59 公開日:2023-10-13 |
# プログラマブルフォトニック集積光学による高次元対称情報完全計測 Higher-dimensional symmetric informationally complete measurement via programmable photonic integrated optics ( http://arxiv.org/abs/2310.08838v1 ) ライセンス: Link先を確認 | Lan-Tian Feng, Xiao-Min Hu, Ming Zhang, Yu-Jie Cheng, Chao Zhang, Yu Guo, Yu-Yang Ding, Zhibo Hou, Fang-Wen Sun, Guang-Can Guo, Dao-Xin Dai, Armin Tavakoli, Xi-Feng Ren, and Bi-Heng Liu | (参考訳) 対称的情報完全測定は、多くの量子情報プロトコルにおける重要な構成要素であり、一般化された非直交量子測定のセミナル例である。
より高次元のシステムでは、これらの測定はますます興味を持ち、実装が複雑になる。
本稿では、3レベル量子システムにおけるそのような測定を実現するための統合量子フォトニクスプラットフォームを示す。
本装置は、真に多くの量子測定を検証し、最適に近い量子状態判別を行い、量子乱数生成の射影限界を破るのに必要な高忠実度で動作する。
さらにプログラム可能で、他の量子測定も同じように高品質で容易に実装できる。
我々の研究は、従来の直交射影を超える高度な高次元量子計測の実装の道を開いた。 Symmetric informationally complete measurements are both important building blocks in many quantum information protocols and the seminal example of a generalised, non-orthogonal, quantum measurement. In higher-dimensional systems, these measurements become both increasingly interesting and increasingly complex to implement. Here, we demonstrate an integrated quantum photonic platform to realize such a measurement on three-level quantum systems. The device operates at the high fidelities necessary for verifying a genuine many-outcome quantum measurement, performing near-optimal quantum state discrimination, and beating the projective limit in quantum random number generation. Moreover, it is programmable and can readily implement other quantum measurements at similarly high quality. Our work paves the way for the implementation of sophisticated higher-dimensional quantum measurements that go beyond the traditional orthogonal projections. | 翻訳日:2023-10-16 14:31:32 公開日:2023-10-13 |
# 観察マッピングと行動クローニングによる下地政策伝達のためのフレームワーク A Framework for Few-Shot Policy Transfer through Observation Mapping and Behavior Cloning ( http://arxiv.org/abs/2310.08836v1 ) ライセンス: Link先を確認 | Yash Shukla, Bharat Kesari, Shivam Goel, Robert Wright and Jivko Sinapov | (参考訳) ロボット応用のための強化学習の最近の進歩にもかかわらず、高価な相互作用コストのため、多くのタスクはいまだに解決が困難である。
転送学習は、ソースドメインで学んだ知識を転送することで、ターゲットドメインのトレーニング時間を短縮する。
Sim2Real転送は、シミュレーションされたロボットドメインから物理的なターゲットドメインへの知識伝達を支援する。
知識伝達は、相互作用のコストが高い物理世界でタスクを訓練するのに要する時間を削減します。
しかし、既存のアプローチの多くは、タスク構造と2つのドメインの物理的性質の正確な対応を前提としている。
本研究は,2つの領域間のFew-Shot Policy Transferを観察マッピングと振舞いのクローンによって行うフレームワークを提案する。
我々はgans(generative adversarial network)と、ソースドメインとターゲットドメインの間の観測結果をマッピングするサイクルコンシスタンス損失を使い、後に学習したマッピングを使用して、成功したソースタスクの振る舞いポリシーをターゲットドメインにクローンします。
我々は,限られた目標タスクの相互作用を伴う行動方針の伝達と,ソースと目標タスクが意味的に異なる場合を観察する。 Despite recent progress in Reinforcement Learning for robotics applications, many tasks remain prohibitively difficult to solve because of the expensive interaction cost. Transfer learning helps reduce the training time in the target domain by transferring knowledge learned in a source domain. Sim2Real transfer helps transfer knowledge from a simulated robotic domain to a physical target domain. Knowledge transfer reduces the time required to train a task in the physical world, where the cost of interactions is high. However, most existing approaches assume exact correspondence in the task structure and the physical properties of the two domains. This work proposes a framework for Few-Shot Policy Transfer between two domains through Observation Mapping and Behavior Cloning. We use Generative Adversarial Networks (GANs) along with a cycle-consistency loss to map the observations between the source and target domains and later use this learned mapping to clone the successful source task behavior policy to the target domain. We observe successful behavior policy transfer with limited target task interactions and in cases where the source and target task are semantically dissimilar. | 翻訳日:2023-10-16 14:31:20 公開日:2023-10-13 |
# 平均報酬マルコフ決定過程における最適サンプル複雑性 Optimal Sample Complexity for Average Reward Markov Decision Processes ( http://arxiv.org/abs/2310.08833v1 ) ライセンス: Link先を確認 | Shengbo Wang, Jose Blanchet, and Peter Glynn | (参考訳) 我々は,一様エルゴード的マルコフ決定過程(MDP)に関連する長期平均報酬の最大化のための政策学習のサンプル複雑性を,生成モデルとして解決する。
この文脈では、既存の文献は、$\widetilde O(|S||A|t_{\text{mix}}^2 \epsilon^{-2})$と$\Omega(|S||A|t_{\text{mix}} \epsilon^{-2})$のサンプル複雑性上限を提供する。
これらの式では、$|S|$ と $|A|$ はそれぞれ状態と作用空間の濃度を表し、$t_{\text{mix}}$ は全変動混合時間の均一な上限として機能し、$\epsilon$ はエラー耐性を表す。
したがって、$t_{\text{mix}}$の注目すべきギャップは依然としてブリッジされている。
我々の主な貢献は、平均報酬 MDP の最適ポリシを$\widetilde O(|S||A|t_{\text{mix}}\epsilon^{-2})$で推定し、文献の下位境界に効果的に到達することである。
これは、jin と sidford (2021) のアルゴリズム的アイデアと li et al. (2020) のアイデアを組み合わせたものである。 We settle the sample complexity of policy learning for the maximization of the long run average reward associated with a uniformly ergodic Markov decision process (MDP), assuming a generative model. In this context, the existing literature provides a sample complexity upper bound of $\widetilde O(|S||A|t_{\text{mix}}^2 \epsilon^{-2})$ and a lower bound of $\Omega(|S||A|t_{\text{mix}} \epsilon^{-2})$. In these expressions, $|S|$ and $|A|$ denote the cardinalities of the state and action spaces respectively, $t_{\text{mix}}$ serves as a uniform upper limit for the total variation mixing times, and $\epsilon$ signifies the error tolerance. Therefore, a notable gap of $t_{\text{mix}}$ still remains to be bridged. Our primary contribution is to establish an estimator for the optimal policy of average reward MDPs with a sample complexity of $\widetilde O(|S||A|t_{\text{mix}}\epsilon^{-2})$, effectively reaching the lower bound in the literature. This is achieved by combining algorithmic ideas in Jin and Sidford (2021) with those of Li et al. (2020). | 翻訳日:2023-10-16 14:31:02 公開日:2023-10-13 |
# ユニタリ合成と破壊量子暗号のための一問下限 A one-query lower bound for unitary synthesis and breaking quantum cryptography ( http://arxiv.org/abs/2310.08870v1 ) ライセンス: Link先を確認 | Alex Lombardi, Fermi Ma, John Wright | (参考訳) ユニタリ合成問題(aaronson-kuperberg 2007)は、任意のブール関数$f$を計算したオラクルで拡張された効率的な量子アルゴリズム$a$によって実装できるかどうかを問うものである。
言い換えれば、任意のユニタリを実装するタスクは、Boolean関数を実装するタスクに効率的に還元できるのだろうか?
本研究では,単項合成における一列下界を証明した。
量子多項式時間 oracle のアルゴリズム $a^f$ が $u$ を実装できないようなユニタリが存在しないことを示し、もしそれが 1 つ (量子) クエリを $f$ にするだけなら、概ね $u$ を実装できることを示した。
我々は、量子暗号プリミティブの存在を証明し(ランダムなオラクルに関連して)、全ての1つの暗号相手に対して安全であることを示す。
このような一問アルゴリズムは、任意の言語を決定でき、古典的検索問題を解くことができ、量子状態も準備できるため、ランダムユニタリの実装や量子暗号の解読は、これらのタスクすべてよりも難しい可能性がある。
この結果を証明するために、一元合成を効率的なチャレンジャー・アドバイザリーゲームとして定式化し、敵の$A^f$の最大成功確率を解析して下界の証明を可能にする。
主な技術的洞察は、ランダム行列理論のツールを用いて、一列最適化問題の自然なスペクトル緩和を特定することである。
我々は、我々のフレームワークを多項式列のユニタリ合成を除外する潜在的な方法とみなし、この方向に予想を述べる。 The Unitary Synthesis Problem (Aaronson-Kuperberg 2007) asks whether any $n$-qubit unitary $U$ can be implemented by an efficient quantum algorithm $A$ augmented with an oracle that computes an arbitrary Boolean function $f$. In other words, can the task of implementing any unitary be efficiently reduced to the task of implementing any Boolean function? In this work, we prove a one-query lower bound for unitary synthesis. We show that there exist unitaries $U$ such that no quantum polynomial-time oracle algorithm $A^f$ can implement $U$, even approximately, if it only makes one (quantum) query to $f$. Our approach also has implications for quantum cryptography: we prove (relative to a random oracle) the existence of quantum cryptographic primitives that remain secure against all one-query adversaries $A^{f}$. Since such one-query algorithms can decide any language, solve any classical search problem, and even prepare any quantum state, our result suggests that implementing random unitaries and breaking quantum cryptography may be harder than all of these tasks. To prove this result, we formulate unitary synthesis as an efficient challenger-adversary game, which enables proving lower bounds by analyzing the maximum success probability of an adversary $A^f$. Our main technical insight is to identify a natural spectral relaxation of the one-query optimization problem, which we bound using tools from random matrix theory. We view our framework as a potential avenue to rule out polynomial-query unitary synthesis, and we state conjectures in this direction. | 翻訳日:2023-10-16 14:26:27 公開日:2023-10-13 |
# ディスクデータ不均衡の処理方法に関する調査研究 A Survey of Methods for Handling Disk Data Imbalance ( http://arxiv.org/abs/2310.08867v1 ) ライセンス: Link先を確認 | Shuangshuang Yuan, Peng Wu, Yuehui Chen and Qiang Li | (参考訳) クラス不均衡は多くの分類問題に存在し、データは正確性のために設計されているため、データクラスの不均衡は分類上の問題を引き起こす可能性がある。
Backblazeデータセットは、ハードディスクに関連する広く使用されているデータセットであり、少量の障害データと大量の健康データを持ち、深刻なクラス不均衡を示す。
本稿では、不均衡データ分類分野の研究の概要について概観する。
この議論は、データレベルメソッド、アルゴリズムレベルメソッド、ハイブリッドメソッドの3つの主要な側面に分けられる。
それぞれの手法について,既存の問題,アルゴリズム的アイデア,強み,弱点を要約し,分析する。
さらに、不均衡なデータ分類の課題とそれに対処する戦略について論じる。
研究者が必要に応じて適切な方法を選択するのは便利です。 Class imbalance exists in many classification problems, and since the data is designed for accuracy, imbalance in data classes can lead to classification challenges with a few classes having higher misclassification costs. The Backblaze dataset, a widely used dataset related to hard discs, has a small amount of failure data and a large amount of health data, which exhibits a serious class imbalance. This paper provides a comprehensive overview of research in the field of imbalanced data classification. The discussion is organized into three main aspects: data-level methods, algorithmic-level methods, and hybrid methods. For each type of method, we summarize and analyze the existing problems, algorithmic ideas, strengths, and weaknesses. Additionally, the challenges of unbalanced data classification are discussed, along with strategies to address them. It is convenient for researchers to choose the appropriate method according to their needs. | 翻訳日:2023-10-16 14:25:58 公開日:2023-10-13 |
# タスク複雑性の効率的な一般化のための適応性とモジュラリティ Adaptivity and Modularity for Efficient Generalization Over Task Complexity ( http://arxiv.org/abs/2310.08866v1 ) ライセンス: Link先を確認 | Samira Abnar, Omid Saremi, Laurent Dinh, Shantel Wilson, Miguel Angel Bautista, Chen Huang, Vimal Thilak, Etai Littwin, Jiatao Gu, Josh Susskind, Samy Bengio | (参考訳) 変換器は、異なるレベルの難易度を持つ例を扱う必要がある問題に対して効率的に一般化できるのか?
本稿では,様々な複雑性に対する一般化を評価するためのタスクを新たに導入し,標準トランスフォーマーが課題に直面していることを示す。
これらのタスクは、zhang et al. (2021) が以前に導入したポインタ値検索のバリエーションである。
本稿では, 逐次計算ステップ数(計算グラフの深さ)の一般化を求めるタスクの学習を, トランスフォーマにおける適応的およびモジュラー計算の機構を用いて行う方法について検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスフォーマーからの適応深さを組み合わせたハイパーutと呼ばれるトランスフォーマーアーキテクチャを提案する。
このモデルは、より多くの計算ステップに一般化するときに、高い精度とより公平な計算リソースの割り当てを示す。
適応的な深さとモジュラリティのメカニズムは、例えば複雑性に関する効率的な一般化を改善するために互いに補完する。
さらに,本研究の広範な適用性を強調するため,標準的な画像認識タスクでは,Hyper-UTの性能はViTモデルに匹敵するが,計算要求は大幅に減少する(レイヤの削減を効果的に行うことで平均70倍以上の節約を達成する)。 Can transformers generalize efficiently on problems that require dealing with examples with different levels of difficulty? We introduce a new task tailored to assess generalization over different complexities and present results that indicate that standard transformers face challenges in solving these tasks. These tasks are variations of pointer value retrieval previously introduced by Zhang et al. (2021). We investigate how the use of a mechanism for adaptive and modular computation in transformers facilitates the learning of tasks that demand generalization over the number of sequential computation steps (i.e., the depth of the computation graph). Based on our observations, we propose a transformer-based architecture called Hyper-UT, which combines dynamic function generation from hyper networks with adaptive depth from Universal Transformers. This model demonstrates higher accuracy and a fairer allocation of computational resources when generalizing to higher numbers of computation steps. We conclude that mechanisms for adaptive depth and modularity complement each other in improving efficient generalization concerning example complexity. Additionally, to emphasize the broad applicability of our findings, we illustrate that in a standard image recognition task, Hyper- UT's performance matches that of a ViT model but with considerably reduced computational demands (achieving over 70\% average savings by effectively using fewer layers). | 翻訳日:2023-10-16 14:25:45 公開日:2023-10-13 |
# 分子特性予測のためのインコンテキスト学習 In-Context Learning for Few-Shot Molecular Property Prediction ( http://arxiv.org/abs/2310.08863v1 ) ライセンス: Link先を確認 | Christopher Fifty, Jure Leskovec, Sebastian Thrun | (参考訳) コンテキスト内学習は、モデルパラメータを微調整することなく新しいタスクに迅速に適応できるため、大規模言語モデルにおける数少ない学習にとって重要なアプローチとなっている。
しかし、自然言語の応用に限られており、他のドメインにも適用できない。
本稿では, インコンテキスト学習の基盤となる概念を適用し, 分子特性予測のための新しいアルゴリズムを開発した。
本手法は(分子, 物性測定)ペアの文脈から分子特性を予測し, 微調整することなく迅速に新しい性質に適応する。
FS-Mol と BACE の分子特性予測ベンチマークでは,この手法が近年のメタ学習アルゴリズムの性能を小さなサポートサイズで上回り,大規模なサポートサイズで最高の手法と競合することがわかった。 In-context learning has become an important approach for few-shot learning in Large Language Models because of its ability to rapidly adapt to new tasks without fine-tuning model parameters. However, it is restricted to applications in natural language and inapplicable to other domains. In this paper, we adapt the concepts underpinning in-context learning to develop a new algorithm for few-shot molecular property prediction. Our approach learns to predict molecular properties from a context of (molecule, property measurement) pairs and rapidly adapts to new properties without fine-tuning. On the FS-Mol and BACE molecular property prediction benchmarks, we find this method surpasses the performance of recent meta-learning algorithms at small support sizes and is competitive with the best methods at large support sizes. | 翻訳日:2023-10-16 14:25:23 公開日:2023-10-13 |
# 分子線エピタキシー方程式による画像分割のための初期化フリーレベル設定法 Re-initialization-free Level Set Method via Molecular Beam Epitaxy Equation Regularization for Image Segmentation ( http://arxiv.org/abs/2310.08861v1 ) ライセンス: Link先を確認 | Fanghui Song, Jiebao Sun, Shengzhu Shi, Zhichang Guo, and Dazhi Zhang | (参考訳) 変化レベルセット法は、複雑な位相変化を処理し、進化の過程で連続性と滑らかさを維持する能力により、画像分割において強力なツールとなっている。
しかし、その進化過程は不安定であり、結果として平坦あるいは過度に鋭い輪郭とセグメンテーションの失敗が生じる。
進化の正確性と安定性を向上させるため,分子線エピタキシー(mbe)方程式を組み込んだ高次レベルセット変動分節法を提案する。
この方法は、MBEプロセスにおける結晶成長を利用してレベルセット関数の進化を制限し、進化過程における再初期化を回避し、分割曲線の滑らかさを調節することができる。
また、画像セグメンテーションの課題である強度不均一なノイズのある画像に対しても機能する。
変動モデルの解法として,高速フーリエ変換 (FFT) に結合した勾配流と設計スカラー補助変数 (SAV) スキームを導出し,従来の半単純・半明示的なスキームと比較して計算効率を著しく向上させることができる。
数値実験により,提案手法は滑らかなセグメンテーション曲線を生成し,微細なセグメンテーション目標を保持し,小型物体のロバストなセグメンテーション結果が得られることを示した。
既存のレベルセット法と比較して、このモデルは精度と効率の両面で最先端である。 Variational level set method has become a powerful tool in image segmentation due to its ability to handle complex topological changes and maintain continuity and smoothness in the process of evolution. However its evolution process can be unstable, which results in over flatted or over sharpened contours and segmentation failure. To improve the accuracy and stability of evolution, we propose a high-order level set variational segmentation method integrated with molecular beam epitaxy (MBE) equation regularization. This method uses the crystal growth in the MBE process to limit the evolution of the level set function, and thus can avoid the re-initialization in the evolution process and regulate the smoothness of the segmented curve. It also works for noisy images with intensity inhomogeneity, which is a challenge in image segmentation. To solve the variational model, we derive the gradient flow and design scalar auxiliary variable (SAV) scheme coupled with fast Fourier transform (FFT), which can significantly improve the computational efficiency compared with the traditional semi-implicit and semi-explicit scheme. Numerical experiments show that the proposed method can generate smooth segmentation curves, retain fine segmentation targets and obtain robust segmentation results of small objects. Compared to existing level set methods, this model is state-of-the-art in both accuracy and efficiency. | 翻訳日:2023-10-16 14:25:10 公開日:2023-10-13 |
# 逆グラフ線形化によるAMR解析の誘導 Guiding AMR Parsing with Reverse Graph Linearization ( http://arxiv.org/abs/2310.08860v1 ) ライセンス: Link先を確認 | Bofei Gao, Liang Chen, Peiyi Wang, Zhifang Sui, Baobao Chang | (参考訳) 抽象意味表現(AMR)解析は、与えられた文から抽象意味グラフを抽出することを目的としている。
セマンティクスグラフをノードとエッジの列に線形化し、線形化されたグラフを直接生成するシーケンシャル・ツー・シーケンスアプローチは、優れた性能を達成している。
しかし,これらの手法はデコードプロセス中に構造損失の蓄積に支障を来し,ノードやエッジのf1-scoreが以前のデコードに比べてはるかに低くなった。
この問題に対処するために,新しいReverse Graph Linearization(RGL)拡張フレームワークを提案する。
RGLは、AMRグラフのデフォルトおよび逆線形化順序を定義する。
rglは、デフォルト線形化を生成する際にモデルを導く2パス自己蒸留機構を通じて、逆線形化をオリジナルのamrパーサに組み込む。
提案手法は, AMR 2.0 と AMR 3.0 のデータセットにおいて, 従来最高の AMR 解析モデルを 0.8 と 0.5 の Smatch スコアで上回り, 構造損失蓄積の問題を著しく軽減することを示す。
コードはhttps://github.com/pkunlp-icler/amr_reverse_graph_linearizationで入手できる。 Abstract Meaning Representation (AMR) parsing aims to extract an abstract semantic graph from a given sentence. The sequence-to-sequence approaches, which linearize the semantic graph into a sequence of nodes and edges and generate the linearized graph directly, have achieved good performance. However, we observed that these approaches suffer from structure loss accumulation during the decoding process, leading to a much lower F1-score for nodes and edges decoded later compared to those decoded earlier. To address this issue, we propose a novel Reverse Graph Linearization (RGL) enhanced framework. RGL defines both default and reverse linearization orders of an AMR graph, where most structures at the back part of the default order appear at the front part of the reversed order and vice versa. RGL incorporates the reversed linearization to the original AMR parser through a two-pass self-distillation mechanism, which guides the model when generating the default linearizations. Our analysis shows that our proposed method significantly mitigates the problem of structure loss accumulation, outperforming the previously best AMR parsing model by 0.8 and 0.5 Smatch scores on the AMR 2.0 and AMR 3.0 dataset, respectively. The code are available at https://github.com/pkunlp-icler/AMR_reverse_graph_linearization. | 翻訳日:2023-10-16 14:24:43 公開日:2023-10-13 |
# Decoupled Weight Decayを用いた深層学習におけるAdam- Family法 Adam-family Methods with Decoupled Weight Decay in Deep Learning ( http://arxiv.org/abs/2310.08858v1 ) ライセンス: Link先を確認 | Kuangyu Ding, Nachuan Xiao, Kim-Chuan Toh | (参考訳) 本稿では,2次正則化非滑らかな非凸最適化問題,特に重み崩壊を伴う非滑らかニューラルネットワークのトレーニングの文脈において,多種多様なadamファミリー法の収束特性について検討する。
本稿では,AdamW法をモチベーションとして,解離重み崩壊を伴うAdam系手法の新たな枠組みを提案する。
この枠組みでは,確率的次数列の一階および二階モーメントの推定子は,重み減衰項とは独立に更新される。
軽度仮定と非最小化ステップによって一次最適化変数を更新することにより,提案フレームワークの収束特性を確立する。
さらに,本提案手法は,Adam- Family法を多種に含み,非滑らかなニューラルネットワークのトレーニングにおいて,これらの手法の収束保証を提供する。
さらに,本提案手法はSGD法を漸近的に近似し,解離重み劣化がAdam- Family法における一般化性能を向上することを示す。
提案手法の実践的応用として,AdamとDecoupled Weight Decay (AdamD)を併用した新しいAdamファミリー法を提案し,その収束特性を穏やかな条件下で確立する。
数値実験により、AdamDはAdamよりも優れ、一般化性能と効率の両面でAdamWに匹敵することを示した。 In this paper, we investigate the convergence properties of a wide class of Adam-family methods for minimizing quadratically regularized nonsmooth nonconvex optimization problems, especially in the context of training nonsmooth neural networks with weight decay. Motivated by the AdamW method, we propose a novel framework for Adam-family methods with decoupled weight decay. Within our framework, the estimators for the first-order and second-order moments of stochastic subgradients are updated independently of the weight decay term. Under mild assumptions and with non-diminishing stepsizes for updating the primary optimization variables, we establish the convergence properties of our proposed framework. In addition, we show that our proposed framework encompasses a wide variety of well-known Adam-family methods, hence offering convergence guarantees for these methods in the training of nonsmooth neural networks. More importantly, we show that our proposed framework asymptotically approximates the SGD method, thereby providing an explanation for the empirical observation that decoupled weight decay enhances generalization performance for Adam-family methods. As a practical application of our proposed framework, we propose a novel Adam-family method named Adam with Decoupled Weight Decay (AdamD), and establish its convergence properties under mild conditions. Numerical experiments demonstrate that AdamD outperforms Adam and is comparable to AdamW, in the aspects of both generalization performance and efficiency. | 翻訳日:2023-10-16 14:24:04 公開日:2023-10-13 |
# ダブルポートによる単一コヒーレント状態光mziによる2パラメータ推定 Two-parameter estimation with single coherent-state light MZI via double-port ( http://arxiv.org/abs/2310.08856v1 ) ライセンス: Link先を確認 | Li-li Hou, Jian-Dong Zhang, Shuai Wang | (参考訳) 二重ポートホモダイン検出を用いた単一コヒーレント状態光マッハ・ツェンダー干渉計による2パラメータ推定手法を提案する。
2パラメータ推定の位相感度は古典的および量子的フィッシャー情報行列によって研究される。
その結果、二重ポートホモダイン検出により得られる光位相感度がQCRBに接近できることが判明した。
さらに、各位相シフトの位相感度は、両方の位相シフトが最適な作業点にあるときにsnlに近づくことができる。 We propose a scheme to realize two-parameter estimation via single coherent-state light Mach- Zehnder interferometer with double-port homodyne detection. The phase sensitivity of the twoparameter estimation is studied by classical and quantum Fisher information matrices. As a result, we find that the optical phase sensitivity obtained by the double-port homodyne detection can approach the QCRB. In addition, the phase sensitivity of each phase shift can approach the SNL when both phase shifts sit at the optimal working point. | 翻訳日:2023-10-16 14:23:22 公開日:2023-10-13 |
# 連続学習における正規化統計の帰納バイアスの克服--バランスと適応 Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation ( http://arxiv.org/abs/2310.08855v1 ) ライセンス: Link先を確認 | Yilin Lyu, Liyuan Wang, Xingxing Zhang, Zicheng Sun, Hang Su, Jun Zhu, Liping Jing | (参考訳) 継続的な学習は一連のタスクを学習し、その知識を適切にバランスさせる。
古いトレーニングサンプルへのアクセスが限られているため、ディープニューラルネットワークにおける現在の作業の多くは、勾配ベースの最適化における古いタスクの破滅的な忘れを克服することに重点を置いている。
しかし、正規化層は、現在観測されているトレーニングサンプルの勾配と統計によって相互依存的に更新されるため、正規化層は例外を提供する。
本研究では,最もポピュラーなバッチ正規化(BN)に注目し,連続学習におけるその準最適性の詳細な理論的解析を行う。
本稿では,bn統計のバランスと適応のジレンマが,学習の安定性や一般化に影響を及ぼす可能性を示唆する。
これらの課題をターゲットとして,タスクワイド・コントリビューションに適応するためのベイズ的戦略と,トレーニングおよびテスト段階に応じたBN統計のバランスを取るための修正モーメントを適切に組み込んだBN適応バランス(AdaB$^2$N)を提案する。
BNを継続的な学習方式で実装することで、我々のアプローチは幅広いベンチマーク、特に挑戦的かつ現実的なオンラインシナリオ(例えば、Split CIFAR-10、Split CIFAR-100、Split Mini-ImageNetで最大7.68%、最大6.86%、および4.26%)において、大幅なパフォーマンス向上を実現している。
私たちのコードはhttps://github.com/lvyilin/adab2nで利用可能です。 Continual learning entails learning a sequence of tasks and balancing their knowledge appropriately. With limited access to old training samples, much of the current work in deep neural networks has focused on overcoming catastrophic forgetting of old tasks in gradient-based optimization. However, the normalization layers provide an exception, as they are updated interdependently by the gradient and statistics of currently observed training samples, which require specialized strategies to mitigate recency bias. In this work, we focus on the most popular Batch Normalization (BN) and provide an in-depth theoretical analysis of its sub-optimality in continual learning. Our analysis demonstrates the dilemma between balance and adaptation of BN statistics for incremental tasks, which potentially affects training stability and generalization. Targeting on these particular challenges, we propose Adaptive Balance of BN (AdaB$^2$N), which incorporates appropriately a Bayesian-based strategy to adapt task-wise contributions and a modified momentum to balance BN statistics, corresponding to the training and testing stages. By implementing BN in a continual learning fashion, our approach achieves significant performance gains across a wide range of benchmarks, particularly for the challenging yet realistic online scenarios (e.g., up to 7.68%, 6.86% and 4.26% on Split CIFAR-10, Split CIFAR-100 and Split Mini-ImageNet, respectively). Our code is available at https://github.com/lvyilin/AdaB2N. | 翻訳日:2023-10-16 14:22:50 公開日:2023-10-13 |
# 高品質物体検出のためのランクDETR Rank-DETR for High Quality Object Detection ( http://arxiv.org/abs/2310.08854v1 ) ライセンス: Link先を確認 | Yifan Pu, Weicong Liang, Yiduo Hao, Yuhui Yuan, Yukang Yang, Chao Zhang, Han Hu, Gao Huang | (参考訳) 現代の検出トランスフォーマー(detrs)は、オブジェクトクエリのセットを使用して、境界ボックスのリストを予測し、分類信頼度スコアでソートし、与えられた入力画像の最終的な検出結果としてトップランクの予測を選択する。
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
DETRベースの検出器では、分類スコアとローカライズ精度の相違により、トップランクのバウンディングボックスは精度の低いローカライズ品質に悩まされ、高品質な検出器の構築を妨げる。
そこで本研究では, ランク指向設計の一連の提案により, 単純かつ高性能なdetrに基づく物体検出手法を提案する。
私たちの重要な貢献は
(i)ポジティブな予測を促し、ネガティブな予測を抑圧し、偽陽性率を下げることのできるランク指向アーキテクチャ設計
(ii)高いiou閾値下でapを増加させるために、ランキング中により正確な位置推定精度の予測を優先するランク指向損失関数とマッチングコスト設計。
本稿では,最近のSOTA法(H-DETRとDINO-DETR)の改善に本手法を適用し,ResNet-$50$,Swin-T,Swin-Lなどの異なるバックボーンを用いたCOCOオブジェクト検出結果について報告する。
コードは \url{https://github.com/LeapLabTHU/Rank-DETR} で公開されている。 Modern detection transformers (DETRs) use a set of object queries to predict a list of bounding boxes, sort them by their classification confidence scores, and select the top-ranked predictions as the final detection results for the given input image. A highly performant object detector requires accurate ranking for the bounding box predictions. For DETR-based detectors, the top-ranked bounding boxes suffer from less accurate localization quality due to the misalignment between classification scores and localization accuracy, thus impeding the construction of high-quality detectors. In this work, we introduce a simple and highly performant DETR-based object detector by proposing a series of rank-oriented designs, combinedly called Rank-DETR. Our key contributions include: (i) a rank-oriented architecture design that can prompt positive predictions and suppress the negative ones to ensure lower false positive rates, as well as (ii) a rank-oriented loss function and matching cost design that prioritizes predictions of more accurate localization accuracy during ranking to boost the AP under high IoU thresholds. We apply our method to improve the recent SOTA methods (e.g., H-DETR and DINO-DETR) and report strong COCO object detection results when using different backbones such as ResNet-$50$, Swin-T, and Swin-L, demonstrating the effectiveness of our approach. Code is available at \url{https://github.com/LeapLabTHU/Rank-DETR}. | 翻訳日:2023-10-16 14:22:03 公開日:2023-10-13 |
# 設計制約下における画像クロッピング Image Cropping under Design Constraints ( http://arxiv.org/abs/2310.08892v1 ) ライセンス: Link先を確認 | Takumi Nishiyasu, Wataru Shimoda, Yoichi Sato | (参考訳) 画像トリミングは、合成強化画像を得るために画像編集に不可欠である。
ディスプレイメディアでは、画像トリミングはメディアコンテンツを自動生成するための予測技術である。
しかし、メディアコンテンツの画像トリミングは、アスペクト比やテキストやオブジェクトを配置する空白領域など、様々な制約を満たすために必要とされることが多い。
この問題を,設計上の制約の下でトリッピングする問題画像と呼ぶ。
デザイン制約下でのイメージトリミングを実現するために,設計制約を満足するか否かの判定結果のスコアを算出するスコア関数に基づく手法を提案する。
本研究では,提案手法,提案手法,ヒートマップ方式の2つのアプローチについて検討し,提案手法の性能評価のためのデータセットを構築した。
実験では,提案手法がベースラインを上回ることを実証し,提案手法が同一計算コスト下でのヒートマップベースアプローチよりも優れていることを検証した。
実験結果から, 審美的に妥当な領域のバランスと設計制約を満たすことは自明な問題ではなく, 微妙なバランスを必要とすることが示唆された。 Image cropping is essential in image editing for obtaining a compositionally enhanced image. In display media, image cropping is a prospective technique for automatically creating media content. However, image cropping for media contents is often required to satisfy various constraints, such as an aspect ratio and blank regions for placing texts or objects. We call this problem image cropping under design constraints. To achieve image cropping under design constraints, we propose a score function-based approach, which computes scores for cropped results whether aesthetically plausible and satisfies design constraints. We explore two derived approaches, a proposal-based approach, and a heatmap-based approach, and we construct a dataset for evaluating the performance of the proposed approaches on image cropping under design constraints. In experiments, we demonstrate that the proposed approaches outperform a baseline, and we observe that the proposal-based approach is better than the heatmap-based approach under the same computation cost, but the heatmap-based approach leads to better scores by increasing computation cost. The experimental results indicate that balancing aesthetically plausible regions and satisfying design constraints is not a trivial problem and requires sensitive balance, and both proposed approaches are reasonable alternatives. | 翻訳日:2023-10-16 14:13:50 公開日:2023-10-13 |
# ehi:効率的な高密度検索のための階層型インデックスのエンドツーエンド学習 EHI: End-to-end Learning of Hierarchical Index for Efficient Dense Retrieval ( http://arxiv.org/abs/2310.08891v1 ) ライセンス: Link先を確認 | Ramnath Kumar and Anshul Mittal and Nilesh Gupta and Aditya Kusupati and Inderjit Dhillon and Prateek Jain | (参考訳) 密度の高い埋め込みベースの検索は、特定のクエリに対して関連するwebドキュメントを取得するなど、セマンティック検索やランキングの問題の業界標準となっている。
このような技術は2段階のプロセスを使用する。
(a)クエリとドキュメントの両方を埋め込むためにデュアルエンコーダを訓練する対照的な学習
b) 任意のクエリに対して類似した文書を見つけるための近接探索(ANNS)に近似する。
これらの2つの段階は解離し、学習された埋め込みはANNS法と逆転法に不適であり、最適以下の性能をもたらす。
本研究では,組込みとANNS構造の両方を共同で学習し,検索性能を最適化するエンドツーエンド階層インデックス(EHI)を提案する。
ehiは、クエリやドキュメントの埋め込みに標準のデュアルエンコーダモデルを使用し、効率的なannのための逆ファイルインデックス(ivf)スタイルのツリー構造を学習する。
離散木ベースの anns 構造の安定かつ効率的な学習を実現するため、ehi は木内のクエリ/ドキュメントの位置をキャプチャする密閉経路埋め込みの概念を導入している。
本稿では,デファクト業界標準MS MARCO (Dev set と TREC DL19) データセットを含む,いくつかのベンチマークにおけるEHIの有効性を示す。
例えば、同じ計算予算で、EHIはMS MARCO開発セットでは0.6%(MRR@10)、TREC DL19ベンチマークでは4.2%(nDCG@10)で最先端(SOTA)を上回っている。 Dense embedding-based retrieval is now the industry standard for semantic search and ranking problems, like obtaining relevant web documents for a given query. Such techniques use a two-stage process: (a) contrastive learning to train a dual encoder to embed both the query and documents and (b) approximate nearest neighbor search (ANNS) for finding similar documents for a given query. These two stages are disjoint; the learned embeddings might be ill-suited for the ANNS method and vice-versa, leading to suboptimal performance. In this work, we propose End-to-end Hierarchical Indexing -- EHI -- that jointly learns both the embeddings and the ANNS structure to optimize retrieval performance. EHI uses a standard dual encoder model for embedding queries and documents while learning an inverted file index (IVF) style tree structure for efficient ANNS. To ensure stable and efficient learning of discrete tree-based ANNS structure, EHI introduces the notion of dense path embedding that captures the position of a query/document in the tree. We demonstrate the effectiveness of EHI on several benchmarks, including de-facto industry standard MS MARCO (Dev set and TREC DL19) datasets. For example, with the same compute budget, EHI outperforms state-of-the-art (SOTA) in by 0.6% (MRR@10) on MS MARCO dev set and by 4.2% (nDCG@10) on TREC DL19 benchmarks. | 翻訳日:2023-10-16 14:13:30 公開日:2023-10-13 |
# PerturbScore: NLPにおける離散と連続摂動の接続 PerturbScore: Connecting Discrete and Continuous Perturbations in NLP ( http://arxiv.org/abs/2310.08889v1 ) ライセンス: Link先を確認 | Linyang Li, Ke Ren, Yunfan Shao, Pengyu Wang, Xipeng Qiu | (参考訳) NLPにおけるニューラルネットワークアプリケーションの急速な開発に伴い、モデルロバストネスの問題が注目されている。
コンピュータビジョンと異なり、テキストの離散的な性質は、NLPの堅牢性を探ることをより困難にする。
そこで本稿では,離散摂動と連続摂動を接続することを目的として,NLPモデルにおける離散摂動の理解を支援するために橋梁のような接続を利用する。
具体的には, 離散摂動と連続摂動の相関関係を接続し, 測定する方法を最初に検討する。
次に、回帰タスクをPerturbScoreとして設計し、相関を自動的に学習する。
実験の結果、離散摂動と連続摂動の接続を構築し、提案したPerturbScoreを用いてそのような相関関係を学習し、離散摂動測定における従来の手法を上回ります。
さらに、提案したPerturbScoreは、異なるデータセット、摂動法に適切に一般化することができ、NLPのモデル堅牢性を研究する強力なツールとして使用できることを示す。 With the rapid development of neural network applications in NLP, model robustness problem is gaining more attention. Different from computer vision, the discrete nature of texts makes it more challenging to explore robustness in NLP. Therefore, in this paper, we aim to connect discrete perturbations with continuous perturbations, therefore we can use such connections as a bridge to help understand discrete perturbations in NLP models. Specifically, we first explore how to connect and measure the correlation between discrete perturbations and continuous perturbations. Then we design a regression task as a PerturbScore to learn the correlation automatically. Through experimental results, we find that we can build a connection between discrete and continuous perturbations and use the proposed PerturbScore to learn such correlation, surpassing previous methods used in discrete perturbation measuring. Further, the proposed PerturbScore can be well generalized to different datasets, perturbation methods, indicating that we can use it as a powerful tool to study model robustness in NLP. | 翻訳日:2023-10-16 14:13:01 公開日:2023-10-13 |
# アルツハイマー病の正確な予測のためのハイブリッドトランスファー学習支援意思決定支援システム A Hybrid Transfer Learning Assisted Decision Support System for Accurate Prediction of Alzheimer Disease ( http://arxiv.org/abs/2310.08888v1 ) ライセンス: Link先を確認 | Mahin Khan Mahadi, Abdullah Abdullah, Jamal Uddin, Asif Newaz | (参考訳) アルツハイマー病(英語: Alzheimer's disease, AD)は、高齢者で最も多い長期疾患である。
近年,医用画像の分野では深層学習が普及し,多くの成功を収めている。
医療画像を見る上で最も効果的な方法となっている。
ADを検出する場合、ディープニューラルネットワークは一般的な機械学習よりも正確で効果的である。
本研究は,adを高い重み付け精度で予測する4つの異なるクラスを98.91%の精度で同定し,より包括的な疾患の理解と検出に寄与する。
本研究では,アンサンブル平均化モデルと5つの異なる転送学習モデルを組み合わせて,不均衡データセット分類問題の精度を向上させるための一意な戦略を提案する。
効率的なNetB0+Resnet152(effnet+res152)およびInceptionV3+EfficientNetB0+Resnet50(incep+effnet+res50)モデルは細調整され、マルチクラスのADステージ分類において最高の重み付け精度に達した。 Alzheimer's disease (AD) is the most common long-term illness in elderly people. In recent years, deep learning has become popular in the area of medical imaging and has had a lot of success there. It has become the most effective way to look at medical images. When it comes to detecting AD, the deep neural model is more accurate and effective than general machine learning. Our research contributes to the development of a more comprehensive understanding and detection of the disease by identifying four distinct classes that are predictive of AD with a high weighted accuracy of 98.91%. A unique strategy has been proposed to improve the accuracy of the imbalance dataset classification problem via the combination of ensemble averaging models and five different transfer learning models in this study. EfficientNetB0+Resnet152(effnet+res152) and InceptionV3+EfficientNetB0+Resnet50(incep+effnet+res50) models have been fine-tuned and have reached the highest weighted accuracy for multi-class AD stage classifications. | 翻訳日:2023-10-16 14:12:42 公開日:2023-10-13 |
# METRA:Metric-Aware Abstractionを備えたスケーラブルな教師なしRL METRA: Scalable Unsupervised RL with Metric-Aware Abstraction ( http://arxiv.org/abs/2310.08887v1 ) ライセンス: Link先を確認 | Seohong Park, Oleh Rybkin, Sergey Levine | (参考訳) 教師なし事前学習戦略は自然言語処理やコンピュータビジョンにおいて非常に効果的であることが証明されている。
同様に、教師なし強化学習(RL)は、幅広い下流タスクの学習を加速できる様々な潜在的に有用な行動を発見するという約束を持っている。
従来の教師なしRLアプローチは主に純粋探索と相互情報スキル学習に重点を置いてきた。
しかし、以前の試みにもかかわらず、教師なしのrlを本当にスケーラブルにすることは、まだ大きな課題である。純粋な探索アプローチは、大きな状態空間を持つ複雑な環境では困難であり、すべての可能な移行をカバーすることは不可能であり、相互情報スキル学習アプローチは、インセンティブの欠如により、環境の探索に完全に失敗する可能性がある。
複雑な高次元環境に対して,教師なしRLをスケーラブルにするために,Metric-Aware Abstraction (METRA) と呼ばれる新しい教師なしRL目標を提案する。
私たちの主なアイデアは、状態空間全体を直接覆うのではなく、時間距離によって状態空間と計量的に接続されるコンパクトな潜在空間$z$だけをカバーすることです。
潜在空間のあらゆる方向に移動することを学ぶことで、metraは、状態空間をほぼカバーする、高次元環境にスケーラブルな様々な行動の扱いやすい集合を得る。
5つのロコモーションと操作環境で行った実験を通じて、metraは複雑なピクセルベースの環境でも様々な有用な振る舞いを発見できることを実証し、ピクセルベースの四足歩行とヒューマノイドにおいて、様々なロコモーション行動を検出する最初の教師なしrl法である。
私たちのコードとビデオはhttps://seohong.me/projects/metra/で閲覧できます。 Unsupervised pre-training strategies have proven to be highly effective in natural language processing and computer vision. Likewise, unsupervised reinforcement learning (RL) holds the promise of discovering a variety of potentially useful behaviors that can accelerate the learning of a wide array of downstream tasks. Previous unsupervised RL approaches have mainly focused on pure exploration and mutual information skill learning. However, despite the previous attempts, making unsupervised RL truly scalable still remains a major open challenge: pure exploration approaches might struggle in complex environments with large state spaces, where covering every possible transition is infeasible, and mutual information skill learning approaches might completely fail to explore the environment due to the lack of incentives. To make unsupervised RL scalable to complex, high-dimensional environments, we propose a novel unsupervised RL objective, which we call Metric-Aware Abstraction (METRA). Our main idea is, instead of directly covering the entire state space, to only cover a compact latent space $Z$ that is metrically connected to the state space $S$ by temporal distances. By learning to move in every direction in the latent space, METRA obtains a tractable set of diverse behaviors that approximately cover the state space, being scalable to high-dimensional environments. Through our experiments in five locomotion and manipulation environments, we demonstrate that METRA can discover a variety of useful behaviors even in complex, pixel-based environments, being the first unsupervised RL method that discovers diverse locomotion behaviors in pixel-based Quadruped and Humanoid. Our code and videos are available at https://seohong.me/projects/metra/ | 翻訳日:2023-10-16 14:12:19 公開日:2023-10-13 |
# InstructTODS:タスク指向対話システムのための大規模言語モデル InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2310.08885v1 ) ライセンス: Link先を確認 | Willy Chung, Samuel Cahyawijaya, Bryan Wilie, Holy Lovenia, Pascale Fung | (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)において様々なタスクに使われてきたが、タスク指向対話システム(TODS)、特にエンドツーエンドのTODSでは未探索のままである。
InstructTODSは、細調整なしで多様なドメインに適応できるゼロショットエンドツーエンドのタスク指向対話システムのための新しいオフザシェルフフレームワークである。
llmsを活用することでinstructtodsは、任意のkbとの効率的なインタラクションのために、ユーザの意図を動的クエリにシームレスに変換するプロキシ信念状態を生成する。
InstructTODSは、事前の知識やタスク固有のデータなしに、対話を完了まで導くことで、完全に微調整されたTODSに匹敵する性能を達成できることを示す。
さらに, エンド・ツー・エンドのTODSを厳密に評価した結果, InstructTODSは, 金の応答, 最先端のTODSの双方を, 有用性, 情報性, 人文性という点で優れる対話応答を生成することがわかった。
さらに,TODSにおけるLLMの有効性は,対話状態追跡,意図分類,応答生成といったTODSサブタスクに対する包括的評価によってさらに裏付けられている。
コードと実装はhttps://github.com/willyhc22/instructtods/にある。 Large language models (LLMs) have been used for diverse tasks in natural language processing (NLP), yet remain under-explored for task-oriented dialogue systems (TODS), especially for end-to-end TODS. We present InstructTODS, a novel off-the-shelf framework for zero-shot end-to-end task-oriented dialogue systems that can adapt to diverse domains without fine-tuning. By leveraging LLMs, InstructTODS generates a proxy belief state that seamlessly translates user intentions into dynamic queries for efficient interaction with any KB. Our extensive experiments demonstrate that InstructTODS achieves comparable performance to fully fine-tuned TODS in guiding dialogues to successful completion without prior knowledge or task-specific data. Furthermore, a rigorous human evaluation of end-to-end TODS shows that InstructTODS produces dialogue responses that notably outperform both the gold responses and the state-of-the-art TODS in terms of helpfulness, informativeness, and humanness. Moreover, the effectiveness of LLMs in TODS is further supported by our comprehensive evaluations on TODS subtasks: dialogue state tracking, intent classification, and response generation. Code and implementations could be found here https://github.com/WillyHC22/InstructTODS/ | 翻訳日:2023-10-16 14:11:49 公開日:2023-10-13 |
# マルチモーダルコントラスト表現の拡張 Extending Multi-modal Contrastive Representations ( http://arxiv.org/abs/2310.08884v1 ) ライセンス: Link先を確認 | Zehan Wang, Ziang Zhang, Luping Liu, Yang Zhao, Haifeng Huang, Tao Jin, Zhou Zhao | (参考訳) 3つのモードからなるマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
近年の手法は目覚ましい成果を示しているが、大規模で高品質なペアデータへの高い依存と、高価なトレーニングコストは、さらなる開発を制限している。
最近のC-MCRにインスパイアされた本研究では,既存のMCR空間の知識を統合することで,3つのモダリティ以上のコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
具体的には、Ex-MCRは複数の既存のMCRを同一のMCRに整列させ、ベースMCRの本来の意味的アライメントを効果的に維持する。
さらに,mcr空間をトレーニングデータ,アーキテクチャ,学習目標の観点から整列するための学習パイプライン全体を包括的に拡張した。
保存された元のモダリティアライメントと拡張された空間アライメントにより、Ex-MCRは優れた表現学習性能と優れたモダリティ拡張性を示す。
CLAP(audio-text)とULIP(3D-vision)のMCR空間をCLIP(vision-text)にアライメントし,重なり合うテキストと画像のモダリティを利用する。
注目すべきことに、Ex-MCRはペアデータを使用しずに、3D画像と音声を融合したコントラスト表現を学び、3D画像、オーディオテキスト、ビジュアルテキスト検索、および3Dオブジェクト分類タスクで最先端のパフォーマンスを達成する。
さらに重要なことは、拡張されたモーダル(例えば、オーディオと3D)間の創発的な意味的アライメントが、モダリティ拡張の大きな可能性を示していることである。 Multi-modal contrastive representation (MCR) of more than three modalities is critical in multi-modal learning. Although recent methods showcase impressive achievements, the high dependence on large-scale, high-quality paired data and the expensive training costs limit their further development. Inspired by recent C-MCR, this paper proposes Extending Multimodal Contrastive Representation (Ex-MCR), a training-efficient and paired-data-free method to flexibly learn unified contrastive representation space for more than three modalities by integrating the knowledge of existing MCR spaces. Specifically, Ex-MCR aligns multiple existing MCRs into the same based MCR, which can effectively preserve the original semantic alignment of the based MCR. Besides, we comprehensively enhance the entire learning pipeline for aligning MCR spaces from the perspectives of training data, architecture, and learning objectives. With the preserved original modality alignment and the enhanced space alignment, Ex-MCR shows superior representation learning performance and excellent modality extensibility. To demonstrate the effectiveness of Ex-MCR, we align the MCR spaces of CLAP (audio-text) and ULIP (3D-vision) into the CLIP (vision-text), leveraging the overlapping text and image modality, respectively. Remarkably, without using any paired data, Ex-MCR learns a 3D-image-text-audio unified contrastive representation, and it achieves state-of-the-art performance on audio-visual, 3D-image, audio-text, visual-text retrieval, and 3D object classification tasks. More importantly, extensive qualitative results further demonstrate the emergent semantic alignment between the extended modalities (e.g., audio and 3D), which highlights the great potential of modality extensibility. | 翻訳日:2023-10-16 14:11:23 公開日:2023-10-13 |
# エンドツーエンドタスク指向対話システムのための検索・生成アライメント Retrieval-Generation Alignment for End-to-End Task-Oriented Dialogue System ( http://arxiv.org/abs/2310.08877v1 ) ライセンス: Link先を確認 | Weizhou Shen, Yingqi Gao, Canbin Huang, Fanqi Wan, Xiaojun Quan, Wei Bi | (参考訳) タスク指向対話システムにおいて,大規模知識ベース(kb)から知識を取り出す効率的な検索器の開発は,局所的および専門的なタスクを効果的に処理するために重要である。
しかし、T5やChatGPTのような広く使われている生成モデルは、応答を生成する際に取得したKBレコード間の微妙な差異を区別するのに苦労することが多く、結果として生成した応答の最適下品質が生じる。
本稿では,応答生成からの信号を監督に利用し,知覚的レトリバーを訓練するための最大限界確率の応用を提案する。
さらに,本手法は,検索対象のみを考慮し,様々なメタ知識を取り入れて生成元を誘導し,知識の利用性を向上させる。
バックボーンモデルとしてt5とchatgptを用いた3つのタスク指向対話データセットに対するアプローチを評価した。
その結果, 応答生成装置は, メタ知識と組み合わせることで, 検索者からの高品質な知識記録を効果的に活用し, 生成した応答の質を高めることができることがわかった。
本論文のコードとモデルは、https://github.com/shenwzh3/mk-todで利用可能である。 Developing an efficient retriever to retrieve knowledge from a large-scale knowledge base (KB) is critical for task-oriented dialogue systems to effectively handle localized and specialized tasks. However, widely used generative models such as T5 and ChatGPT often struggle to differentiate subtle differences among the retrieved KB records when generating responses, resulting in suboptimal quality of generated responses. In this paper, we propose the application of maximal marginal likelihood to train a perceptive retriever by utilizing signals from response generation for supervision. In addition, our approach goes beyond considering solely retrieved entities and incorporates various meta knowledge to guide the generator, thus improving the utilization of knowledge. We evaluate our approach on three task-oriented dialogue datasets using T5 and ChatGPT as the backbone models. The results demonstrate that when combined with meta knowledge, the response generator can effectively leverage high-quality knowledge records from the retriever and enhance the quality of generated responses. The codes and models of this paper are available at https://github.com/shenwzh3/MK-TOD. | 翻訳日:2023-10-16 14:10:46 公開日:2023-10-13 |
# エッジ上におけるfmcwレーダのジェスチャー認識 Gesture Recognition for FMCW Radar on the Edge ( http://arxiv.org/abs/2310.08876v1 ) ライセンス: Link先を確認 | Maximilian Strobel, Stephan Schoenfeldt, Jonas Daugalas | (参考訳) 本稿では,60GHz帯周波数変調連続波レーダ(FMCW)に基づく軽量なジェスチャー認識システムを提案する。
ジェスチャーは5つの特徴の集合によって効率的に特徴付けられることを示すとともに,これらの特徴を抽出するスリムレーダ処理アルゴリズムを提案する。
従来のアプローチとは対照的に、レンジドップラー画像のような重い2D処理を回避し、代わりに早期のターゲット検出を実行する。
リカレントニューラルネットワーク(RNN)ベースのアーキテクチャは、これらの特徴を利用して、5つの異なるジェスチャーを共同で検出し、分類する。
提案システムでは、F1スコア98.4%の動作をホールトアウトテストデータセットで認識し、280kB以下のフラッシュメモリと120kBのRAMを必要とするArm Cortex-M4マイクロコントローラ上で動作し、75mWの電力を消費する。 This paper introduces a lightweight gesture recognition system based on 60 GHz frequency modulated continuous wave (FMCW) radar. We show that gestures can be characterized efficiently by a set of five features, and propose a slim radar processing algorithm to extract these features. In contrast to previous approaches, we avoid heavy 2D processing, i.e. range-Doppler imaging, and perform instead an early target detection - this allows us to port the system to fully embedded platforms with tight constraints on memory, compute and power consumption. A recurrent neural network (RNN) based architecture exploits these features to jointly detect and classify five different gestures. The proposed system recognizes gestures with an F1 score of 98.4% on our hold-out test dataset, it runs on an Arm Cortex-M4 microcontroller requiring less than 280 kB of flash memory, 120 kB of RAM, and consuming 75 mW of power. | 翻訳日:2023-10-16 14:10:28 公開日:2023-10-13 |
# R&B: ゼロショット接地画像生成における領域と境界認識 R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation ( http://arxiv.org/abs/2310.08872v1 ) ライセンス: Link先を確認 | Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang | (参考訳) 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。
しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。
本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。
本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。
具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。
さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。
実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。 Recent text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images given text-prompts as input. However, these models fail to convey appropriate spatial composition specified by a layout instruction. In this work, we probe into zero-shot grounded T2I generation with diffusion models, that is, generating images corresponding to the input layout information without training auxiliary modules or finetuning diffusion models. We propose a Region and Boundary (R&B) aware cross-attention guidance approach that gradually modulates the attention maps of diffusion model during generative process, and assists the model to synthesize images (1) with high fidelity, (2) highly compatible with textual input, and (3) interpreting layout instructions accurately. Specifically, we leverage the discrete sampling to bridge the gap between consecutive attention maps and discrete layout constraints, and design a region-aware loss to refine the generative layout during diffusion process. We further propose a boundary-aware loss to strengthen object discriminability within the corresponding regions. Experimental results show that our method outperforms existing state-of-the-art zero-shot grounded T2I generation methods by a large margin both qualitatively and quantitatively on several benchmarks. | 翻訳日:2023-10-16 14:10:12 公開日:2023-10-13 |
# マルチタスクとマルチドメイン学習のスケール化 Scalarization for Multi-Task and Multi-Domain Learning at Scale ( http://arxiv.org/abs/2310.08910v1 ) ライセンス: Link先を確認 | Amelie Royer, Tijmen Blankevoort, Babak Ehteshami Bejnordi | (参考訳) 複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースから情報を統一されたバックボーンに圧縮することで、モデル効率が向上する。
また、タスク/ドメイン間の潜在的なポジティブな知識伝達を可能にし、精度とデータ効率のトレーニングを改善する。
しかし、このようなネットワークの最適化は、特に異なるタスクやドメインの相違による課題である: 長年にわたり提案されてきたいくつかの仮説と解決策にもかかわらず、最近の研究は、一様スカラー化トレーニング、すなわち、タスク損失の平均を最小化し、よりコストのかかるSotA最適化手法でオンパー性能を得ることを示した。
これにより、マルチタスクとマルチドメインネットワークのトレーニングダイナミクスの理解度が向上する。
本稿では,まず,マルチドメインおよびマルチタスク学習の大規模統一分析を考案し,タスク/ドメインの組み合わせとモデルサイズをまたいだスカラー化のダイナミクスの理解を深める。
これらの知見に従えば,多数のタスクやドメインを扱う場合に最適なスカラー化重みを効率的に探索するために,人口ベースのトレーニングを活用することを提案する。 Training a single model on multiple input domains and/or output tasks allows for compressing information from multiple sources into a unified backbone hence improves model efficiency. It also enables potential positive knowledge transfer across tasks/domains, leading to improved accuracy and data-efficient training. However, optimizing such networks is a challenge, in particular due to discrepancies between the different tasks or domains: Despite several hypotheses and solutions proposed over the years, recent work has shown that uniform scalarization training, i.e., simply minimizing the average of the task losses, yields on-par performance with more costly SotA optimization methods. This raises the issue of how well we understand the training dynamics of multi-task and multi-domain networks. In this work, we first devise a large-scale unified analysis of multi-domain and multi-task learning to better understand the dynamics of scalarization across varied task/domain combinations and model sizes. Following these insights, we then propose to leverage population-based training to efficiently search for the optimal scalarization weights when dealing with a large number of tasks or domains. | 翻訳日:2023-10-16 14:03:45 公開日:2023-10-13 |
# 深層強化学習による対実グラフ検索としてのコミュニティメンバーシップ Community Membership Hiding as Counterfactual Graph Search via Deep Reinforcement Learning ( http://arxiv.org/abs/2310.08909v1 ) ライセンス: Link先を確認 | Andrea Bernini, Fabrizio Silvestri, Gabriele Tolomei | (参考訳) コミュニティ検出技術は、ソーシャルメディアプラットフォームが共通の関心を共有しているユーザーの密接なつながりを見つけるのに役立つツールである。
しかし、この機能は、自分の好みや好みを不注意に明らかにすることで、個人をプライバシー侵害に晒す恐れがある。
それゆえ、一部のユーザーは匿名性を保護し、政治的・宗教的な組織との協力など様々な理由でコミュニティ検出を除外したいと考える。
本研究では,ネットワークグラフの構造的特性を戦略的に変更して,与えられたコミュニティ検出アルゴリズムによって1つ以上のノードが識別されるのを防ぐ,コミュニティメンバシップ隠蔽の課題に対処する。
制約付き反事実グラフの目的として定式化することでこの問題に取り組み,深層強化学習によって解決する。
提案手法の有効性を検証するために,nodeとcommunity deceptionの2つのタスクを行った。
広範な実験によって、我々のアプローチは両方のタスクで既存のベースラインを全体的に上回っています。 Community detection techniques are useful tools for social media platforms to discover tightly connected groups of users who share common interests. However, this functionality often comes at the expense of potentially exposing individuals to privacy breaches by inadvertently revealing their tastes or preferences. Therefore, some users may wish to safeguard their anonymity and opt out of community detection for various reasons, such as affiliation with political or religious organizations. In this study, we address the challenge of community membership hiding, which involves strategically altering the structural properties of a network graph to prevent one or more nodes from being identified by a given community detection algorithm. We tackle this problem by formulating it as a constrained counterfactual graph objective, and we solve it via deep reinforcement learning. We validate the effectiveness of our method through two distinct tasks: node and community deception. Extensive experiments show that our approach overall outperforms existing baselines in both tasks. | 翻訳日:2023-10-16 14:03:24 公開日:2023-10-13 |
# 大規模言語モデルを用いたループ内機械翻訳 Human-in-the-loop Machine Translation with Large Language Model ( http://arxiv.org/abs/2310.08908v1 ) ライセンス: Link先を確認 | Xinyi Yang, Runzhe Zhan, Derek F. Wong, Junchao Wu, Lidia S. Chao | (参考訳) 大規模言語モデル (LLM) は、文脈内学習機構と創発的能力によって大きな注目を集めている。
研究コミュニティは、機械翻訳タスクにllmを適用し、様々な観点からその性能を評価するための試験的な研究を行った。
しかし、従来の研究は主にLLM自体に焦点を当てており、LLMの推論プロセスにおける人間の介入を探求していない。
インコンテキスト学習やプロンプトエンジニアリングなどのLLMの特徴は、言語タスクにおける人間の認知能力を密接に反映し、ループ内生成のための直感的なソリューションを提供する。
そこで本研究では,LLMを誘導し,リビジョン命令で出力をカスタマイズするHuman-in-the-loopパイプラインを提案する。
パイプラインは、llmに草案の翻訳を促し、続いて自動検索や人間のフィードバックを監督信号として利用することで、文脈内学習によるllmの翻訳を強化する。
このパイプラインで生成された人間と機械の相互作用も外部データベースに格納され、コンテキスト内検索データベースを拡張することにより、オフライン環境での人間の監督を活用できる。
提案するパイプラインをgpt-3.5-turbo apiを用いてドイツ語-英語翻訳のための5つのドメイン固有のベンチマークで評価した。
その結果,インドメイン翻訳におけるパイプラインの有効性が示され,直接翻訳に比べて翻訳性能が向上した。
さらに、以下の観点から結果について議論する。
1) 異なる文脈内検索手法の有効性
2) 低リソースシナリオによる検索データベースの構築
3) 観察された領域の違い
4) 言語統計の定量的分析,及び
5) 翻訳事例の質的分析。
コードとデータはhttps://github.com/nlp2ct/hil-mt/で入手できる。 The large language model (LLM) has garnered significant attention due to its in-context learning mechanisms and emergent capabilities. The research community has conducted several pilot studies to apply LLMs to machine translation tasks and evaluate their performance from diverse perspectives. However, previous research has primarily focused on the LLM itself and has not explored human intervention in the inference process of LLM. The characteristics of LLM, such as in-context learning and prompt engineering, closely mirror human cognitive abilities in language tasks, offering an intuitive solution for human-in-the-loop generation. In this study, we propose a human-in-the-loop pipeline that guides LLMs to produce customized outputs with revision instructions. The pipeline initiates by prompting the LLM to produce a draft translation, followed by the utilization of automatic retrieval or human feedback as supervision signals to enhance the LLM's translation through in-context learning. The human-machine interactions generated in this pipeline are also stored in an external database to expand the in-context retrieval database, enabling us to leverage human supervision in an offline setting. We evaluate the proposed pipeline using GPT-3.5-turbo API on five domain-specific benchmarks for German-English translation. The results demonstrate the effectiveness of the pipeline in tailoring in-domain translations and improving translation performance compared to direct translation. Additionally, we discuss the results from the following perspectives: 1) the effectiveness of different in-context retrieval methods; 2) the construction of a retrieval database under low-resource scenarios; 3) the observed domains differences; 4) the quantitative analysis of linguistic statistics; and 5) the qualitative analysis of translation cases. The code and data are available at https://github.com/NLP2CT/HIL-MT/. | 翻訳日:2023-10-16 14:03:09 公開日:2023-10-13 |
# 変形可能な線形オブジェクトの3次元理解:データセットと転送可能性ベンチマーク 3D Understanding of Deformable Linear Objects: Datasets and Transferability Benchmark ( http://arxiv.org/abs/2310.08904v1 ) ライセンス: Link先を確認 | Bare Luka \v{Z}agar, Tim Hertel, Mingyu Liu, Ekim Yurtsever, ALois C. Knoll | (参考訳) 変形可能な線形オブジェクトは、私たちの日常生活で大きく表されています。
人間が視覚的に理解しても、同じ物体が完全に異なるように見えるように絡み合っているため、しばしば困難である。
変形可能な線形物体の例としては、血管や配線ハーネスがあり、人体や車両などの対応するシステムの機能に不可欠である。
しかし、3次元変形可能な線形物体を研究するための点クラウドデータセットは存在しない。
そのため、PointWireとPointVesselという2つのポイントクラウドデータセットを導入しています。
提案手法を大規模3次元変形可能な線形オブジェクトベンチマークで評価した。
最後に,pointwire および pointvessel データセット上で転送可能性実験を行い,それらの一般化機能を解析した。 Deformable linear objects are vastly represented in our everyday lives. It is often challenging even for humans to visually understand them, as the same object can be entangled so that it appears completely different. Examples of deformable linear objects include blood vessels and wiring harnesses, vital to the functioning of their corresponding systems, such as the human body and a vehicle. However, no point cloud datasets exist for studying 3D deformable linear objects. Therefore, we are introducing two point cloud datasets, PointWire and PointVessel. We evaluated state-of-the-art methods on the proposed large-scale 3D deformable linear object benchmarks. Finally, we analyzed the generalization capabilities of these methods by conducting transferability experiments on the PointWire and PointVessel datasets. | 翻訳日:2023-10-16 14:02:44 公開日:2023-10-13 |
# SeqXGPT: 文レベルAI生成テキスト検出 SeqXGPT: Sentence-Level AI-Generated Text Detection ( http://arxiv.org/abs/2310.08903v1 ) ライセンス: Link先を確認 | Pengyu Wang, Linyang Li, Ke Ren, Botian Jiang, Dong Zhang, Xipeng Qiu | (参考訳) 広範に適用された大規模言語モデル(LLM)は、人間に似たコンテンツを生成し、LLMの悪用に対する懸念を提起する。
したがって、強力なAI生成テキスト(AIGT)検出器を構築することが重要である。
現在,文書レベルのAIGT検出のみを考慮しているため,本論文ではまず,LLMで洗練された文書を含むデータセット,すなわちLLMで修正された文を含む文書を合成し,文レベルの検出課題を導入する。
次に,文レベルのAIGT検出機能として,白箱LEMのログ確率リストを利用する新しい手法である,textbf{Seq}uence \textbf{X} (Check) \textbf{GPT}を提案する。
これらの特徴は音声処理における \textit{waves} のように構成され、llms では研究できない。
そこで我々は,畳み込みと自己注意ネットワークに基づくSeqXGPTを構築した。
文と文書レベルの検出課題の両方でテストします。
実験の結果,従来の手法は文レベルAIGTの検出に苦慮していたのに対し,本手法は文レベル検出と文書レベル検出の両方において基準手法をはるかに上回るだけでなく,強力な一般化能力を示した。 Widely applied large language models (LLMs) can generate human-like content, raising concerns about the abuse of LLMs. Therefore, it is important to build strong AI-generated text (AIGT) detectors. Current works only consider document-level AIGT detection, therefore, in this paper, we first introduce a sentence-level detection challenge by synthesizing a dataset that contains documents that are polished with LLMs, that is, the documents contain sentences written by humans and sentences modified by LLMs. Then we propose \textbf{Seq}uence \textbf{X} (Check) \textbf{GPT}, a novel method that utilizes log probability lists from white-box LLMs as features for sentence-level AIGT detection. These features are composed like \textit{waves} in speech processing and cannot be studied by LLMs. Therefore, we build SeqXGPT based on convolution and self-attention networks. We test it in both sentence and document-level detection challenges. Experimental results show that previous methods struggle in solving sentence-level AIGT detection, while our method not only significantly surpasses baseline methods in both sentence and document-level detection challenges but also exhibits strong generalization capabilities. | 翻訳日:2023-10-16 14:02:33 公開日:2023-10-13 |
# 福祉外交:ベンチマーク言語モデルの協調 Welfare Diplomacy: Benchmarking Language Model Cooperation ( http://arxiv.org/abs/2310.08901v1 ) ライセンス: Link先を確認 | Gabriel Mukobi, Hannah Erlebach, Niklas Lauffer, Lewis Hammond, Alan Chan, Jesse Clifton | (参考訳) 能力の増大とAIシステムの広範な展開は、その協調能力を測定するために堅牢なベンチマークを必要とする。
残念ながら、ほとんどのマルチエージェントベンチマークはゼロサムか純粋に協調的であり、そのような測定の機会は限られている。
我々は、ゼロサムボードゲーム「外交」の一般版「福祉外交」を導入し、プレイヤーは軍事的征服と国内福祉への投資のバランスをとる必要がある。
我々は、福祉外交が協調能力のためのトレーニングインセンティブの明確化とより強力な評価を促進することを論じる。
我々は,(1)福祉外交ルールを提案し,オープンソース外交エンジンを介して実施すること,(2)ゼロショット誘導言語モデルを用いたベースラインエージェントの構築,(3)最先端のモデルを用いたベースラインが高い社会福祉を実現するが,有効であることを示す実験を行った。
本研究は,マルチエージェントaiシステムの開発と評価を支援することにより,社会の安全を促進することを目的としている。
福祉外交を評価し、我々の実験を再現するためのコードはhttps://github.com/mukobi/welfare-diplomacy.comにある。 The growing capabilities and increasingly widespread deployment of AI systems necessitate robust benchmarks for measuring their cooperative capabilities. Unfortunately, most multi-agent benchmarks are either zero-sum or purely cooperative, providing limited opportunities for such measurements. We introduce a general-sum variant of the zero-sum board game Diplomacy -- called Welfare Diplomacy -- in which players must balance investing in military conquest and domestic welfare. We argue that Welfare Diplomacy facilitates both a clearer assessment of and stronger training incentives for cooperative capabilities. Our contributions are: (1) proposing the Welfare Diplomacy rules and implementing them via an open-source Diplomacy engine; (2) constructing baseline agents using zero-shot prompted language models; and (3) conducting experiments where we find that baselines using state-of-the-art models attain high social welfare but are exploitable. Our work aims to promote societal safety by aiding researchers in developing and assessing multi-agent AI systems. Code to evaluate Welfare Diplomacy and reproduce our experiments is available at https://github.com/mukobi/welfare-diplomacy. | 翻訳日:2023-10-16 14:02:10 公開日:2023-10-13 |
# ダイバーAIスーパービジョンの原理による探索 Exploration with Principles for Diverse AI Supervision ( http://arxiv.org/abs/2310.08899v1 ) ライセンス: Link先を確認 | Hao Liu, Matei Zaharia, Pieter Abbeel | (参考訳) 次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩をもたらした。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
ChatGPTのような最先端のAIモデルでさえ、人間のデモを通じて微調整を行い、人間の入力とドメインの専門知識を必要とする。
この人間の監視への強い依存は、AIイノベーションの進歩に大きなハードルとなる。
この制限に対処するために,我々は,高品質なトレーニングデータの自動生成を目的とした新しいパラダイムであるexploratory ai(eai)を提案する。
教師なし強化学習(RL)プレトレーニングからインスピレーションを得たEAIは、自然言語空間内での探索を実現する。
我々は,生成されたコンテンツの新規性を評価するために,大規模言語モデルを用いてこれを実現する。
このアプローチでは,探索原理に従って新たなコンテンツを生成するアクタと,生成したコンテンツを評価する批評家の2つの重要なコンポーネントを用いて,アクタを導くための批判を提供する。
実証的な評価は、EAIが複雑な推論タスクにおけるモデルパフォーマンスを著しく向上させ、人間集約的な監督の限界に対処することを示している。 Training large transformers using next-token prediction has given rise to groundbreaking advancements in AI. While this generative AI approach has produced impressive results, it heavily leans on human supervision. Even state-of-the-art AI models like ChatGPT depend on fine-tuning through human demonstrations, demanding extensive human input and domain expertise. This strong reliance on human oversight poses a significant hurdle to the advancement of AI innovation. To address this limitation, we propose a novel paradigm termed Exploratory AI (EAI) aimed at autonomously generating high-quality training data. Drawing inspiration from unsupervised reinforcement learning (RL) pretraining, EAI achieves exploration within the natural language space. We accomplish this by harnessing large language models to assess the novelty of generated content. Our approach employs two key components: an actor that generates novel content following exploration principles and a critic that evaluates the generated content, offering critiques to guide the actor. Empirical evaluations demonstrate that EAI significantly boosts model performance on complex reasoning tasks, addressing the limitations of human-intensive supervision. | 翻訳日:2023-10-16 14:01:52 公開日:2023-10-13 |
# 直線上の空間不均質な3状態量子ウォークの定常測度:再訪 Stationary Measures of Space-Inhomogeneous Three-State Quantum Walks on Line: Revisited ( http://arxiv.org/abs/2310.08898v1 ) ライセンス: Link先を確認 | Shengsheng Liu, Caishi Wang, Jijun Zhao | (参考訳) 量子ウォークにおいて、静止測度はその進化の振る舞いを理解する上で重要な役割を果たす。
本稿では,線上の空間不均一な3状態量子ウォークの2つのモデルの定常測度について検討する。
還元行列の手法を用いて、いくつかの穏やかな条件下での2つのモデルの定常測度を求める。
本結果は文献に存在する対応するものを一般化する。 Of a quantum walk, its stationary measures play an important role in understanding its evolution behavior. In this paper we investigate stationary measures of two models of space-inhomogeneous three-state quantum walk on the line. By using the method of reduced matrix, we find out stationary measures of the two models under some mild conditions. Our results generalize the corresponding ones existing in the literature. | 翻訳日:2023-10-16 14:01:34 公開日:2023-10-13 |
# 自己制御型畳み込み核を用いた手技的特徴調和 : 心エコーによる左室高血圧疾患の増強 Self supervised convolutional kernel based handcrafted feature harmonization: Enhanced left ventricle hypertension disease phenotyping on echocardiography ( http://arxiv.org/abs/2310.08897v1 ) ライセンス: Link先を確認 | Jina Lee, Youngtaek Hong, Dawun Jeong, Yeonggul Jang, Sihyeon Jeong, Taekgeun Jung, Yeonyee E. Yoon, Inki Moon, Seung-Ah Lee, and Hyuk-Jae Chang | (参考訳) 医用イメージング技術であるradiomicsは、画像から手作りの定量的特徴を抽出し、疾患を予測する。
これらの機能の調和は、様々なイメージングデバイスやプロトコル間で一貫した特徴抽出を保証する。
調和の方法には、標準化された撮像プロトコル、統計的調整、特徴ロバスト性の評価が含まれる。
左室肥大 (LVH) や高血圧性心疾患 (HHD) などの心筋疾患は心エコー法で診断されるが, 様々な画像設定が課題となる。
このようなシナリオにおいて, ハーモナイズ技術は手作りの特徴を疾患診断に適用するために重要である。
自己教師付き学習(ssl)は、限られたデータセット内のデータ理解を強化し、さまざまなデータ設定に適応する。
ConvNeXt-V2は、畳み込みレイヤをSSLに統合し、さまざまなタスクにおいて優れたパフォーマンスを示す。
本研究は,SSL内の畳み込みフィルタを前処理として,手作り特徴調和のための特徴マップに変換する。
提案手法は調和評価に優れ,既存の手法に比べて優れたLVH分類性能を示した。 Radiomics, a medical imaging technique, extracts quantitative handcrafted features from images to predict diseases. Harmonization in those features ensures consistent feature extraction across various imaging devices and protocols. Methods for harmonization include standardized imaging protocols, statistical adjustments, and evaluating feature robustness. Myocardial diseases such as Left Ventricular Hypertrophy (LVH) and Hypertensive Heart Disease (HHD) are diagnosed via echocardiography, but variable imaging settings pose challenges. Harmonization techniques are crucial for applying handcrafted features in disease diagnosis in such scenario. Self-supervised learning (SSL) enhances data understanding within limited datasets and adapts to diverse data settings. ConvNeXt-V2 integrates convolutional layers into SSL, displaying superior performance in various tasks. This study focuses on convolutional filters within SSL, using them as preprocessing to convert images into feature maps for handcrafted feature harmonization. Our proposed method excelled in harmonization evaluation and exhibited superior LVH classification performance compared to existing methods. | 翻訳日:2023-10-16 14:01:29 公開日:2023-10-13 |
# 進化的多目的最適化による微粒化 Migrant Resettlement by Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2310.08896v1 ) ライセンス: Link先を確認 | Dan-Xuan Liu, Yu-Ran Gu, Chao Qian, Xin Mu and Ke Tang | (参考訳) 移行は普遍的な現象であり、グローバルな開発のための機会と課題をもたらす。
近年、移民(難民など)の数が急増するにつれて、各国が直面する重要な課題は移民の再定住の問題である。
この問題は雇用率の最大化の観点から科学研究の注目を集めている。
これまでの研究は主に、複数のマトロイド制約に従属する概ね部分モジュラー最適化問題として移民再定住を定式化し、グリードアルゴリズムを用いた。
本稿では, 進化的多目的最適化に基づくMR-EMOを提案する。これは, ミグラント再定住を, 被雇用者数の最大化と派遣者数の同時最小化を図った双対象最適化問題として再編成し, 両対象問題の解法として多目的進化アルゴリズム(MOEA)を用いる。
3つのMOEA, NSGA-II, MOEA/D, GSEMOを用いてMR-EMOを実装した。
MR-EMOの性能をさらに向上するために,マトリックススワップの突然変異と修復機構を用いて,GSEMO-SRと呼ばれる特定のMOEAを提案する。
GSEMOとGSEMO-SRを併用したMR-EMOは,従来のグリージーアルゴリズムよりも理論上の保証が得られることを示す。
インタビューおよび調整移行モデルによる実験結果から,従来のアルゴリズムよりもMR-EMO(NSGA-II, MOEA/D, GSEMO-SR, GSEMO-SR)の方が優れており,GSEMO-SRを用いることでMR-EMOの最高の性能が得られることが明らかとなった。 Migration has been a universal phenomenon, which brings opportunities as well as challenges for global development. As the number of migrants (e.g., refugees) increases rapidly in recent years, a key challenge faced by each country is the problem of migrant resettlement. This problem has attracted scientific research attention, from the perspective of maximizing the employment rate. Previous works mainly formulated migrant resettlement as an approximately submodular optimization problem subject to multiple matroid constraints and employed the greedy algorithm, whose performance, however, may be limited due to its greedy nature. In this paper, we propose a new framework MR-EMO based on Evolutionary Multi-objective Optimization, which reformulates Migrant Resettlement as a bi-objective optimization problem that maximizes the expected number of employed migrants and minimizes the number of dispatched migrants simultaneously, and employs a Multi-Objective Evolutionary Algorithm (MOEA) to solve the bi-objective problem. We implement MR-EMO using three MOEAs, the popular NSGA-II, MOEA/D as well as the theoretically grounded GSEMO. To further improve the performance of MR-EMO, we propose a specific MOEA, called GSEMO-SR, using matrix-swap mutation and repair mechanism, which has a better ability to search for feasible solutions. We prove that MR-EMO using either GSEMO or GSEMO-SR can achieve better theoretical guarantees than the previous greedy algorithm. Experimental results under the interview and coordination migration models clearly show the superiority of MR-EMO (with either NSGA-II, MOEA/D, GSEMO or GSEMO-SR) over previous algorithms, and that using GSEMO-SR leads to the best performance of MR-EMO. | 翻訳日:2023-10-16 14:01:13 公開日:2023-10-13 |
# TIDE:構造光系のパターンフローによる時間的インクリメンタル異方性推定 TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in Structured Light System ( http://arxiv.org/abs/2310.08932v1 ) ライセンス: Link先を確認 | Rukun Qiao, Hiroshi Kawasaki, Hongbin Zha | (参考訳) 単眼構造光システムにおける不等式計算のための学習ベース手法であるtide-net(temporlyly incremental disparity estimation network)を導入した。
ハードウェアの設定では、静的なパターンが動的シーンに投影され、単眼カメラでキャプチャされます。
フレームワイドで動作する従来の分散度推定手法とは異なり、ネットワークは時間的に漸進的に不均一度マップを取得する。
具体的には,撮影された画像列における投影パターン(パターンフロー)の変形を利用して,時間情報をモデル化する。
特に、この新たなパターンフローの定式化は、光フローの特別な形態であるエピポーラ線に沿った不均一性の変化を反映している。
パターンフローを前提とした再帰型アーキテクチャであるTIDE-Netが提案され,実装されている。
入力フレーム毎に,パターンフローに歪んだ相関ボリューム(現在のフレームから)と不一致(以前のフレームから)を融合させる。
融合した特徴から、TIDE-Netの最終段階は、多くの従来の手法で実施されたように、完全格差よりも残留格差を推定する。
興味深いことに、この設計は効率性と一般化能力の観点から明らかに実証的な利点をもたらす。
トレーニングに合成データのみを用いると、拡張評価結果(精度と効率の両面で)は、実データに対する複数のSOTAモデルよりも優れた性能を示す。
コードはhttps://github.com/CodePointer/TIDENetで入手できる。 We introduced Temporally Incremental Disparity Estimation Network (TIDE-Net), a learning-based technique for disparity computation in mono-camera structured light systems. In our hardware setting, a static pattern is projected onto a dynamic scene and captured by a monocular camera. Different from most former disparity estimation methods that operate in a frame-wise manner, our network acquires disparity maps in a temporally incremental way. Specifically, We exploit the deformation of projected patterns (named pattern flow ) on captured image sequences, to model the temporal information. Notably, this newly proposed pattern flow formulation reflects the disparity changes along the epipolar line, which is a special form of optical flow. Tailored for pattern flow, the TIDE-Net, a recurrent architecture, is proposed and implemented. For each incoming frame, our model fuses correlation volumes (from current frame) and disparity (from former frame) warped by pattern flow. From fused features, the final stage of TIDE-Net estimates the residual disparity rather than the full disparity, as conducted by many previous methods. Interestingly, this design brings clear empirical advantages in terms of efficiency and generalization ability. Using only synthetic data for training, our extensitve evaluation results (w.r.t. both accuracy and efficienty metrics) show superior performance than several SOTA models on unseen real data. The code is available on https://github.com/CodePointer/TIDENet. | 翻訳日:2023-10-16 13:53:48 公開日:2023-10-13 |
# オブジェクト指向学習における解釈可能な制御性を目指して Towards Interpretable Controllability in Object-Centric Learning ( http://arxiv.org/abs/2310.08929v1 ) ライセンス: Link先を確認 | Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi, Seon Joo Kim | (参考訳) 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。
特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。
OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。
本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。
また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。
広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。
コードはもうすぐ入手できる。 The binding problem in artificial neural networks is actively explored with the goal of achieving human-level recognition skills through the comprehension of the world in terms of symbol-like entities. Especially in the field of computer vision, object-centric learning (OCL) is extensively researched to better understand complex scenes by acquiring object representations or slots. While recent studies in OCL have made strides with complex images or videos, the interpretability and interactivity over object representation remain largely uncharted, still holding promise in the field of OCL. In this paper, we introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to explore the possibility of learning interpretable controllability over slots in a self-supervised manner by utilizing an image augmentation strategy. We also devise the concept of sustainability in controllable slots by introducing iterative and reversible controls over slots with two proposed submethods: Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical studies and theoretical validation confirm the effectiveness of our approach, offering a novel capability for interpretable and sustainable control of object representations. Code will be available soon. | 翻訳日:2023-10-16 13:53:23 公開日:2023-10-13 |
# SIDE: ソースフリードメイン適応のための自己教師付き中間ドメイン探索 SIDE: Self-supervised Intermediate Domain Exploration for Source-free Domain Adaptation ( http://arxiv.org/abs/2310.08928v1 ) ライセンス: Link先を確認 | Jiamei Liu, Han Sun, Yizhen Jia, Jie Qin, Huiyu Zhou, Ningzhong Liu | (参考訳) ドメイン適応は、ソースドメインから学んだ知識を対象ドメインに移す際にドメインシフトを緩和することを目的としています。
プライバシの問題により、ソースのないドメイン適応(SFDA)は、適応中にソースデータが利用できなくなるが、最近は非常に要求が強くなっている。
既存のSFDA法は、ターゲットサンプルの自己教師付き学習や、仮想ソースデータの再構築に重点を置いている。
前者はソースモデルの転送可能な知識を見落とし、後者はさらに不確実性をもたらす。
上記の問題に対処するため,本論文では,サンプルが自己教師付きで循環的にフィルタされる中間領域とドメインギャップを効果的に橋渡しする自己教師付き中間領域探索(side)を提案する。
まず、ソース領域とターゲット領域上の同様の分布を持つ中間サンプルを周期的に選択するサイクル中間ドメインフィルタリング(cidf)を提案する。
第2に、これらの中間サンプルの助けを借りて、ソースとターゲットデータ間の分散ミスマッチを軽減するために、ドメイン間ギャップ遷移(IDGT)モジュールを開発する。
最後に,対象領域にモデルを適応しながらクラス識別性を維持するために,クロスビュー一貫性学習(cvcl)を導入する。
Office-31, Office-Home, VisDA-C の3つのベンチマークにおいて,提案したSIDE は最先端の手法と競合する性能を示した。 Domain adaptation aims to alleviate the domain shift when transferring the knowledge learned from the source domain to the target domain. Due to privacy issues, source-free domain adaptation (SFDA), where source data is unavailable during adaptation, has recently become very demanding yet challenging. Existing SFDA methods focus on either self-supervised learning of target samples or reconstruction of virtual source data. The former overlooks the transferable knowledge in the source model, whilst the latter introduces even more uncertainty. To address the above issues, this paper proposes self-supervised intermediate domain exploration (SIDE) that effectively bridges the domain gap with an intermediate domain, where samples are cyclically filtered out in a self-supervised fashion. First, we propose cycle intermediate domain filtering (CIDF) to cyclically select intermediate samples with similar distributions over source and target domains. Second, with the aid of those intermediate samples, an inter-domain gap transition (IDGT) module is developed to mitigate possible distribution mismatches between the source and target data. Finally, we introduce cross-view consistency learning (CVCL) to maintain the intrinsic class discriminability whilst adapting the model to the target domain. Extensive experiments on three popular benchmarks, i.e. Office-31, Office-Home and VisDA-C, show that our proposed SIDE achieves competitive performance against state-of-the-art methods. | 翻訳日:2023-10-16 13:53:05 公開日:2023-10-13 |
# インコンテキスト学習のための情報ゲインを最大化する情報的マイナショットプロンプト Towards Informative Few-Shot Prompt with Maximum Information Gain for In-Context Learning ( http://arxiv.org/abs/2310.08923v1 ) ライセンス: Link先を確認 | Hongfu Liu, Ye Wang | (参考訳) 大規模言語モデル(LLM)は、新しい下流タスクを条件としていくつかのデモを活用することで、ICL(In-context Learning)に参加する能力を持っている。
しかし、この学習パラダイムは、選択された例の入力分布、順序付け、プロンプト形式などの要因によって引き起こされる実質的なばらつきに起因する高い不安定さに苦しむ。
この研究で、これらの因子が全て一定である場合でも、例のランダムな選択は高い分散をもたらすことを示した。
そこで,本研究では,データ例候補を観測した後に得られた情報ゲイン(IG)を定量化することにより,データ例の情報伝達能力を探求する。
次に、最大IGでそれらをサンプリングする。
さらに, テンプレートバイアスの存在を同定し, サンプリング過程におけるIGの不正な評価につながる可能性がある。
このバイアスを軽減するために,サンプリング戦略の前にキャリブレーションを導入する。
実験の結果,提案手法は3つのLLMを用いて6つの分類タスクに対して平均14.3%の相対的改善が得られることがわかった。 Large Language models (LLMs) possess the capability to engage In-context Learning (ICL) by leveraging a few demonstrations pertaining to a new downstream task as conditions. However, this particular learning paradigm suffers from high instability stemming from substantial variances induced by factors such as the input distribution of selected examples, their ordering, and prompt formats. In this work, we demonstrate that even when all these factors are held constant, the random selection of examples still results in high variance. Consequently, we aim to explore the informative ability of data examples by quantifying the Information Gain (IG) obtained in prediction after observing a given example candidate. Then we propose to sample those with maximum IG. Additionally, we identify the presence of template bias, which can lead to unfair evaluations of IG during the sampling process. To mitigate this bias, we introduce Calibration Before Sampling strategy. The experimental results illustrate that our proposed method can yield an average relative improvement of 14.3% across six classification tasks using three LLMs. | 翻訳日:2023-10-16 13:52:42 公開日:2023-10-13 |
# LLaMA Rider: 大規模言語モデルによるオープンワールドの探索 LLaMA Rider: Spurring Large Language Models to Explore the Open World ( http://arxiv.org/abs/2310.08922v1 ) ライセンス: Link先を確認 | Yicheng Feng, Yuxuan Wang, Jiazheng Liu, Sipeng Zheng, and Zongqing Lu | (参考訳) 近年,大規模言語モデル(LLM)を活用し,環境における意思決定と計画を支援し,LLMの知識と世界環境との整合を図る研究が行われている。
それでも、LLMが環境知識を継続的に獲得し、オープンな世界で適応する能力は、まだ不明である。
本稿では,オープンワールドを探索し,経験を収集し,課題解決能力の向上を学ぶために,LLMを刺激するアプローチを提案する。
このアプローチでは,複数ラウンドのフィードバック修正機構を利用して,環境からのフィードバック情報によって導かれる適切なリビジョンアクションをLCMに積極的に選択する。
これにより探索が容易になり、モデルの性能が向上する。
さらに,サブタスク・ラベリングを統合して,サブタスク計画における一貫性の維持を支援するとともに,モデルがタスク間の組合せの性質を学習し,取得した探索経験に基づくトレーニングを通じて幅広いタスクを完了できるようにする。
オープンエンドのサンドボックスの世界であるMinecraftでの評価により,LLaMA-Riderは環境探索におけるLLMの効率を向上し,収集したデータの1.3kのインスタンスを微調整することで,LLMがより多くのタスクをこなす能力を効果的に向上することを示した。 Recently, various studies have leveraged Large Language Models (LLMs) to help decision-making and planning in environments, and try to align the LLMs' knowledge with the world conditions. Nonetheless, the capacity of LLMs to continuously acquire environmental knowledge and adapt in an open world remains uncertain. In this paper, we propose an approach to spur LLMs to explore the open world, gather experiences, and learn to improve their task-solving capabilities. In this approach, a multi-round feedback-revision mechanism is utilized to encourage LLMs to actively select appropriate revision actions guided by feedback information from the environment. This facilitates exploration and enhances the model's performance. Besides, we integrate sub-task relabeling to assist LLMs in maintaining consistency in sub-task planning and help the model learn the combinatorial nature between tasks, enabling it to complete a wider range of tasks through training based on the acquired exploration experiences. By evaluation in Minecraft, an open-ended sandbox world, we demonstrate that our approach LLaMA-Rider enhances the efficiency of the LLM in exploring the environment, and effectively improves the LLM's ability to accomplish more tasks through fine-tuning with merely 1.3k instances of collected data, showing minimal training costs compared to the baseline using reinforcement learning. | 翻訳日:2023-10-16 13:52:21 公開日:2023-10-13 |
# Feature Proliferation -- StyleGAN の "Cancer" とその治療 Feature Proliferation -- the "Cancer" in StyleGAN and its Treatments ( http://arxiv.org/abs/2310.08921v1 ) ライセンス: Link先を確認 | Shuang Song, Yuanbang Liang, Jing Wu, Yu-Kun Lai, Yipeng Qin | (参考訳) 画像合成におけるStyleGANの成功にもかかわらず、合成された画像は必ずしも完璧ではなく、StyleGANが高品質な画像を合成するための標準的な後処理技術としてよく知られている。
効果はあるものの、この切り抜きトリックは合成画像の多様性を減らし、必然的に多くの異なる画像特徴を犠牲にする傾向があることに長年注目されてきた。
この問題に対処するため,我々はまずStyleGAN画像合成機構を探索し,特徴拡散(Feature Proliferation)という重要な現象を発見する。
次に,StyleGAN画像アーティファクトにおける特徴増殖の発生について述べる。
アナロジーとして、スタイルガンにおける「癌」は、その増殖と悪性の性質に由来する。
最後に,リスクのある特徴を識別・調整し,機能増殖を緩和する機能再スケーリング手法を提案する。
特徴拡散の発見により、提案手法は破壊的でなく、より微細化され、高レベルな潜在空間よりも低レベルな特徴空間で機能するため、トランケーショントリックよりも有用な画像特徴を保っている。
実験結果は,提案手法の有効性と特徴リスケーリングの有効性を正当化した。
コードはhttps://github.com/で入手できる。
pic.com/songc42/Feature-proliferation。 Despite the success of StyleGAN in image synthesis, the images it synthesizes are not always perfect and the well-known truncation trick has become a standard post-processing technique for StyleGAN to synthesize high-quality images. Although effective, it has long been noted that the truncation trick tends to reduce the diversity of synthesized images and unnecessarily sacrifices many distinct image features. To address this issue, in this paper, we first delve into the StyleGAN image synthesis mechanism and discover an important phenomenon, namely Feature Proliferation, which demonstrates how specific features reproduce with forward propagation. Then, we show how the occurrence of Feature Proliferation results in StyleGAN image artifacts. As an analogy, we refer to it as the" cancer" in StyleGAN from its proliferating and malignant nature. Finally, we propose a novel feature rescaling method that identifies and modulates risky features to mitigate feature proliferation. Thanks to our discovery of Feature Proliferation, the proposed feature rescaling method is less destructive and retains more useful image features than the truncation trick, as it is more fine-grained and works in a lower-level feature space rather than a high-level latent space. Experimental results justify the validity of our claims and the effectiveness of the proposed feature rescaling method. Our code is available at https://github. com/songc42/Feature-proliferation. | 翻訳日:2023-10-16 13:51:55 公開日:2023-10-13 |
# 恥ずかしいほどシンプルなテキスト透かし Embarrassingly Simple Text Watermarks ( http://arxiv.org/abs/2310.08920v1 ) ライセンス: Link先を確認 | Ryoma Sato, Yuki Takezawa, Han Bao, Kenta Niwa, Makoto Yamada | (参考訳) 恥ずかしいほど単純で効果的な透かしのファミリーであるEasymarkを提案する。
大規模言語モデル(llm)の出現に伴い,テキスト透かしの重要性が高まっている。
LLMは、人間が書いたテキストと区別できないテキストを生成することができる。
これは、テキストの信頼性にとって深刻な問題である。
Easymarkは、この問題に対する単純だが効果的なソリューションである。
Easymarkはテキストの意味を全く変えずに透かしを注入でき、バリデーターはEasymarkを採用したシステムからテキストが生成されたかどうかを高い信頼性で検出できる。
easymarkは実装が非常に簡単で、数行のコードしか必要としない。
Easymark は LLM へのアクセスを必要としないため、LLM プロバイダがウォーターマーク付き LLM を提供していない場合、ユーザ側で実装することができる。
その単純さにもかかわらず、最先端のテキスト透かし法よりも高い検出精度とBLEUスコアを達成する。
我々はまた、完備な透かしの不可能性定理を証明し、それはそれ自体で価値がある。
この定理は、どんなに高度な透かしであっても、悪意のあるユーザーがテキストからそれを取り除くことができ、Easymarkのような単純な透かしを使う動機になることを示している。
llm生成テキストを用いた実験を行い,bleuとパープレキシティの劣化を伴わずに,イージーマークを確実に検出でき,品質と信頼性の両面で最先端のウォーターマークよりも優れることを確認した。 We propose Easymark, a family of embarrassingly simple yet effective watermarks. Text watermarking is becoming increasingly important with the advent of Large Language Models (LLM). LLMs can generate texts that cannot be distinguished from human-written texts. This is a serious problem for the credibility of the text. Easymark is a simple yet effective solution to this problem. Easymark can inject a watermark without changing the meaning of the text at all while a validator can detect if a text was generated from a system that adopted Easymark or not with high credibility. Easymark is extremely easy to implement so that it only requires a few lines of code. Easymark does not require access to LLMs, so it can be implemented on the user-side when the LLM providers do not offer watermarked LLMs. In spite of its simplicity, it achieves higher detection accuracy and BLEU scores than the state-of-the-art text watermarking methods. We also prove the impossibility theorem of perfect watermarking, which is valuable in its own right. This theorem shows that no matter how sophisticated a watermark is, a malicious user could remove it from the text, which motivate us to use a simple watermark such as Easymark. We carry out experiments with LLM-generated texts and confirm that Easymark can be detected reliably without any degradation of BLEU and perplexity, and outperform state-of-the-art watermarks in terms of both quality and reliability. | 翻訳日:2023-10-16 13:51:34 公開日:2023-10-13 |
# 知識グラフ埋め込みのための関係認識アンサンブル学習 Relation-aware Ensemble Learning for Knowledge Graph Embedding ( http://arxiv.org/abs/2310.08917v1 ) ライセンス: Link先を確認 | Ling Yue, Yongqi Zhang, Quanming Yao, Yong Li, Xian Wu, Ziheng Zhang, Zhenxi Lin, Yefeng Zheng | (参考訳) 知識グラフ(KG)埋め込みは自然言語処理の基本的な課題であり、様々な方法で意味パターンを探索する手法が提案されている。
本稿では,既存の手法を関係認識方式で活用してアンサンブルを学習することを提案する。
しかし、関係認識アンサンブルを用いたこれらの意味論の探索は、一般的なアンサンブル法よりもはるかに大きな探索空間をもたらす。
この問題に対処するために,関係的なアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
このアルゴリズムは一般的なアンサンブル法と同じ計算コストを持つが、性能は優れている。
実験結果から,提案手法の有効性を検証し,関係認識アンサンブル重みを効率的に探索し,最先端の埋め込み性能を実現する。
コードはhttps://github.com/LARS-research/RelEns.comで公開されている。 Knowledge graph (KG) embedding is a fundamental task in natural language processing, and various methods have been proposed to explore semantic patterns in distinctive ways. In this paper, we propose to learn an ensemble by leveraging existing methods in a relation-aware manner. However, exploring these semantics using relation-aware ensemble leads to a much larger search space than general ensemble methods. To address this issue, we propose a divide-search-combine algorithm RelEns-DSC that searches the relation-wise ensemble weights independently. This algorithm has the same computation cost as general ensemble methods but with much better performance. Experimental results on benchmark datasets demonstrate the effectiveness of the proposed method in efficiently searching relation-aware ensemble weights and achieving state-of-the-art embedding performance. The code is public at https://github.com/LARS-research/RelEns. | 翻訳日:2023-10-16 13:51:11 公開日:2023-10-13 |
# 動的スパースなしトレーニング:スパースllmのトレーニングフリー微調整 Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs ( http://arxiv.org/abs/2310.08915v1 ) ライセンス: Link先を確認 | Yuxin Zhang, Lirui Zhao, Mingbao Lin, Yunyun Sun, Yiwu Yao, Xingjia Han, Jared Tanner, Shiwei Liu, Rongrong Ji | (参考訳) 今後も増え続ける大型言語モデル(LLM)は、今後の人工知能(AI)への潜在的な道を開く一方で、デバイス上での展開に向けて途方もない障害を乗り越えている。
モデル複雑性の低減において、LLMが確立したアプローチの1つとして、ネットワークプルーニングは、大量のモデルパラメータとトレーニングデータの下で、コストのかかる微調整(または再訓練)の必要性のため、LLMの時代に遅れているように見える。
この業界と学界のギャップを埋めるために、私たちは、高価なバックプロパゲーションやウェイトアップデートなしに、わずかにスパースLSMを更新するトレーニング不要の微調整アプローチであるDynamic Sparse No Training (DSnoT)を導入しました。
Dynamic Sparse TrainingにインスパイアされたDSnoTは、Sparse LLM上で反復的に重量を刈り上げ、成長させる方法で、高密度LLMとスパースLLMの再構成誤差を最小限に抑える。
この目的を達成するため、DSnoTは特に、各重みを成長させるための差分w.r.t.異なる入力データと同様に、刈り込みおよび成長のための復元誤差の期待値の低減を考慮に入れている。
このプラクティスは、微調整LDMのバックプロパゲーションの必要性を排除し、線形時間で効率的に実行できる。
各種ベンチマークを用いたLLaMA-V1/V2, Vicuna, OPTの大規模実験により, スパースLDMの性能向上におけるDSnoTの有効性が示された。
例えば、DSnoTは、LLaMA-7Bと70%の間隔で26.79パープレキシティで最先端のワンダより優れている。
本稿は, LLMのスパースを, 効率的なトレーニングのない方法で微調整し, 新しい会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
コードはhttps://github.com/zxyxmu/dsnotで入手できる。 The ever-increasing large language models (LLMs), though opening a potential path for the upcoming artificial general intelligence, sadly drops a daunting obstacle on the way towards their on-device deployment. As one of the most well-established pre-LLMs approaches in reducing model complexity, network pruning appears to lag behind in the era of LLMs, due mostly to its costly fine-tuning (or re-training) necessity under the massive volumes of model parameter and training data. To close this industry-academia gap, we introduce Dynamic Sparse No Training (DSnoT), a training-free fine-tuning approach that slightly updates sparse LLMs without the expensive backpropagation and any weight updates. Inspired by the Dynamic Sparse Training, DSnoT minimizes the reconstruction error between the dense and sparse LLMs, in the fashion of performing iterative weight pruning-and-growing on top of sparse LLMs. To accomplish this purpose, DSnoT particularly takes into account the anticipated reduction in reconstruction error for pruning and growing, as well as the variance w.r.t. different input data for growing each weight. This practice can be executed efficiently in linear time since its obviates the need of backpropagation for fine-tuning LLMs. Extensive experiments on LLaMA-V1/V2, Vicuna, and OPT across various benchmarks demonstrate the effectiveness of DSnoT in enhancing the performance of sparse LLMs, especially at high sparsity levels. For instance, DSnoT is able to outperform the state-of-the-art Wanda by 26.79 perplexity at 70% sparsity with LLaMA-7B. Our paper offers fresh insights into how to fine-tune sparse LLMs in an efficient training-free manner and open new venues to scale the great potential of sparsity to LLMs. Codes are available at https://github.com/zxyxmu/DSnoT. | 翻訳日:2023-10-16 13:50:55 公開日:2023-10-13 |
# 音声コマンド認識のための畳み込みニューラルネットワークのハイパーパラメータ選択に基づく差分進化アルゴリズム Differential Evolution Algorithm based Hyper-Parameters Selection of Convolutional Neural Network for Speech Command Recognition ( http://arxiv.org/abs/2310.08914v1 ) ライセンス: Link先を確認 | Sandipan Dhar, Anuvab Sen, Aritra Bandyopadhyay, Nanda Dulal Jana, Arjun Ghosh, Zahra Sarayloo | (参考訳) 短発話音声コマンドの識別を扱う音声コマンド認識(scr)は,iotデバイスやアシスト技術など,さまざまなアプリケーションにおいて重要である。
SCRタスクにおける畳み込みニューラルネットワーク(CNN)の約束にもかかわらず、その有効性はハイパーパラメータの選択に大きく依存している。
本稿では,SCRタスクの性能向上を目的とした差分進化(DE)アルゴリズムに基づくCNNのハイパーパラメータ選択手法を提案する。
Google Speech Command(GSC)データセットによるトレーニングとテストを行い、提案手法は音声コマンドの分類に有効であることを示した。
さらに、遺伝的アルゴリズムに基づく選択と他の深層cnn(dcnn)モデルとの比較分析により、scrタスクにおけるcnnのハイパーパラメータ選択におけるdeアルゴリズムの有効性が示された。 Speech Command Recognition (SCR), which deals with identification of short uttered speech commands, is crucial for various applications, including IoT devices and assistive technology. Despite the promise shown by Convolutional Neural Networks (CNNs) in SCR tasks, their efficacy relies heavily on hyper-parameter selection, which is typically laborious and time-consuming when done manually. This paper introduces a hyper-parameter selection method for CNNs based on the Differential Evolution (DE) algorithm, aiming to enhance performance in SCR tasks. Training and testing with the Google Speech Command (GSC) dataset, the proposed approach showed effectiveness in classifying speech commands. Moreover, a comparative analysis with Genetic Algorithm based selections and other deep CNN (DCNN) models highlighted the efficiency of the proposed DE algorithm in hyper-parameter selection for CNNs in SCR tasks. | 翻訳日:2023-10-16 13:50:18 公開日:2023-10-13 |
# ページ:連合学習におけるパーソナライゼーションと一般化 PAGE: Equilibrate Personalization and Generalization in Federated Learning ( http://arxiv.org/abs/2310.08961v1 ) ライセンス: Link先を確認 | Qian Chen, Zilong Wang, Jiaqi Hu, Haonan Yan, Jianying Zhou, Xiaodong Lin | (参考訳) フェデレーション学習(federated learning, fl)は、サービスプロバイダ(サーバ)のオーケストレーションの下で、顧客(クライアント)が共有ローカルアップデートの恩恵を受ける、マシンラーニング・アズ・ア・サービスを支える大きな原動力になりつつある。
クライアントの現在の要求とサーバの将来的な要求を反映し、ローカルモデルパーソナライゼーションとグローバルモデル一般化を別々に検討する。
しかし、この2つの競合するように見えるゴールは、白黒の問題よりも同じ重要性を持ち、同時に達成されるべきである。
本稿では,PAGEと呼ばれるゲーム理論上のパーソナライズと一般化のバランスをとる最初のアルゴリズムを提案する。
均衡を探求するため、PAGEはさらにマルコフ決定過程としてゲームを定式化し、問題解決の複雑さを単純化する強化学習アルゴリズムを活用する。
4つの広範囲なデータセットに対する大規模な実験により、PAGEはグローバルとローカルの予測精度で最先端のFLベースラインを同時に上回り、それぞれ35.20%と39.91%の精度で改善できることが示された。
さらに、偏りのあるpageの変種は、実際には需要シフトへの適応性を約束している。 Federated learning (FL) is becoming a major driving force behind machine learning as a service, where customers (clients) collaboratively benefit from shared local updates under the orchestration of the service provider (server). Representing clients' current demands and the server's future demand, local model personalization and global model generalization are separately investigated, as the ill-effects of data heterogeneity enforce the community to focus on one over the other. However, these two seemingly competing goals are of equal importance rather than black and white issues, and should be achieved simultaneously. In this paper, we propose the first algorithm to balance personalization and generalization on top of game theory, dubbed PAGE, which reshapes FL as a co-opetition game between clients and the server. To explore the equilibrium, PAGE further formulates the game as Markov decision processes, and leverages the reinforcement learning algorithm, which simplifies the solving complexity. Extensive experiments on four widespread datasets show that PAGE outperforms state-of-the-art FL baselines in terms of global and local prediction accuracy simultaneously, and the accuracy can be improved by up to 35.20% and 39.91%, respectively. In addition, biased variants of PAGE imply promising adaptiveness to demand shifts in practice. | 翻訳日:2023-10-16 13:44:44 公開日:2023-10-13 |
# xdial-eval:多言語オープンドメイン対話評価ベンチマーク xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark ( http://arxiv.org/abs/2310.08958v1 ) ライセンス: Link先を確認 | Chen Zhang, Luis Fernando D'Haro, Chengguang Tang, Ke Shi, Guohua Tang, Haizhou Li | (参考訳) オープンドメイン対話評価のための参照なし学習メトリクスの最近の進歩は、事前訓練された言語モデルの進歩と、高品質な人間のアノテーションによる対話データの可用性によって推進されている。
しかし、現在の研究は主に英語の対話に集中しており、これらのメトリクスを他の言語に一般化することは十分に検討されていない。
これは主に多言語対話評価ベンチマークが欠落しているためである。
この問題に対処するために、オープンソースの英語対話評価データセット上に構築されたxDial-Evalを紹介する。
xdial-evalは、12のターンレベルと6つの対話レベルの英語データセットを含み、それぞれ14930の注釈付きターンと8691の注釈付き対話からなる。
英語の対話データは、商用機械翻訳システムを持つ9言語に拡張される。
xDial-Evalでは、従来のBERTベースのメトリクスと最近導入された大規模言語モデルの包括的な分析を行う。
最後に,強い自己監督と多言語ベースラインを確立する。
すべてのデータセットと言語の平均的なピアソン相関については、最も優れたベースラインがOpenAIのChatGPTよりも、ターンレベルとダイアログレベルでそれぞれ6.5%と4.6%向上している。
データとコードはhttps://github.com/e0397123/xdial-evalで公開されている。 Recent advancements in reference-free learned metrics for open-domain dialogue evaluation have been driven by the progress in pre-trained language models and the availability of dialogue data with high-quality human annotations. However, current studies predominantly concentrate on English dialogues, and the generalization of these metrics to other languages has not been fully examined. This is largely due to the absence of a multilingual dialogue evaluation benchmark. To address the issue, we introduce xDial-Eval, built on top of open-source English dialogue evaluation datasets. xDial-Eval includes 12 turn-level and 6 dialogue-level English datasets, comprising 14930 annotated turns and 8691 annotated dialogues respectively. The English dialogue data are extended to nine other languages with commercial machine translation systems. On xDial-Eval, we conduct comprehensive analyses of previous BERT-based metrics and the recently-emerged large language models. Lastly, we establish strong self-supervised and multilingual baselines. In terms of average Pearson correlations over all datasets and languages, the best baseline outperforms OpenAI's ChatGPT by absolute improvements of 6.5% and 4.6% at the turn and dialogue levels respectively, albeit with much fewer parameters. The data and code are publicly available at https://github.com/e0397123/xDial-Eval. | 翻訳日:2023-10-16 13:44:20 公開日:2023-10-13 |
# LRRU:深度到達のための長短レンジリカレント更新ネットワーク LRRU: Long-short Range Recurrent Updating Networks for Depth Completion ( http://arxiv.org/abs/2310.08956v1 ) ライセンス: Link先を確認 | Yufei Wang, Bo Li, Ge Zhang, Qi Liu, Tao Gao, Yuchao Dai | (参考訳) 既存の深度学習に基づく深度補完法は, 一般に, 粗い入力データから深度マップを予測するために, 重層化層を用いる。
このようなアプローチは、このタスクを大いに前進させるが、それに伴う膨大な計算複雑性は、その実践的応用を妨げる。
より効率的に深度処理を実現するために,Long-Short Range Recurrent Updating (LRRU) ネットワークという,軽量な深度ネットワークフレームワークを提案する。
複雑な特徴表現を学習せずに、LRRUはまずスパース入力を大まかに満たして初期密度の深度マップを取得し、学習された空間変化カーネルを通して反復的に更新する。
我々の反復的更新プロセスはコンテント順応的かつ柔軟であり、ガイドRGB画像と深度マップを併用してカーネル重みを学習し、大小のカーネルスコープを動的に調整して長短の領域依存を捕捉する。
我々の初期深度マップは粗いが完全な深度情報を持ち、疎密な深度を直接退避させる負担を軽減するのに役立ち、提案手法は学習可能なパラメータや推論時間が少ない正確な深度マップに効果的に洗練することができる。
実験の結果,提案するlrru変種は,異なるパラメータレジームで最先端の性能を実現することがわかった。
特に、LRRU-Baseモデルは、NYUv2データセット上の競合するアプローチよりも優れており、提出時にKITTI深さ補完ベンチマークで1位である。
プロジェクトページ: https://npucvr.github.io/lrru/ Existing deep learning-based depth completion methods generally employ massive stacked layers to predict the dense depth map from sparse input data. Although such approaches greatly advance this task, their accompanied huge computational complexity hinders their practical applications. To accomplish depth completion more efficiently, we propose a novel lightweight deep network framework, the Long-short Range Recurrent Updating (LRRU) network. Without learning complex feature representations, LRRU first roughly fills the sparse input to obtain an initial dense depth map, and then iteratively updates it through learned spatially-variant kernels. Our iterative update process is content-adaptive and highly flexible, where the kernel weights are learned by jointly considering the guidance RGB images and the depth map to be updated, and large-to-small kernel scopes are dynamically adjusted to capture long-to-short range dependencies. Our initial depth map has coarse but complete scene depth information, which helps relieve the burden of directly regressing the dense depth from sparse ones, while our proposed method can effectively refine it to an accurate depth map with less learnable parameters and inference time. Experimental results demonstrate that our proposed LRRU variants achieve state-of-the-art performance across different parameter regimes. In particular, the LRRU-Base model outperforms competing approaches on the NYUv2 dataset, and ranks 1st on the KITTI depth completion benchmark at the time of submission. Project page: https://npucvr.github.io/LRRU/. | 翻訳日:2023-10-16 13:43:55 公開日:2023-10-13 |
# icalepcsとipacコンファレンスのテキスト分析--将来の洞察と高度な検索のための研究動向、トピック、コラボレーションを明らかにする Textual Analysis of ICALEPCS and IPAC Conference Proceedings: Revealing Research Trends, Topics, and Collaborations for Future Insights and Advanced Search ( http://arxiv.org/abs/2310.08954v1 ) ライセンス: Link先を確認 | Antonin Sulc, Annika Eichler, Tim Wilksen | (参考訳) 本稿では,過去のicalepcs と ipac コンファレンスに関するテキスト分析を行い,この分野で議論されている研究動向と話題について考察する。
自然言語処理技術を用いて,過去の会議手順の要約や論文から有意義な情報を抽出する。
トピックを抽出してトレンドを視覚化し、その進化を分析し、新たな研究の方向性を特定し、ネットワークの分析によってコンテンツのみに基づいて興味深い出版物をハイライトする。
さらに,既存の論文を検索し,重複を防止し,参照発見を容易にする高度な検索ツールも提供する。
我々の分析は、この分野の研究状況の包括的概要を提供し、研究者や実践者が今後の研究の最先端と特定領域をよりよく理解するのに役立つ。 In this paper, we show a textual analysis of past ICALEPCS and IPAC conference proceedings to gain insights into the research trends and topics discussed in the field. We use natural language processing techniques to extract meaningful information from the abstracts and papers of past conference proceedings. We extract topics to visualize and identify trends, analyze their evolution to identify emerging research directions, and highlight interesting publications based solely on their content with an analysis of their network. Additionally, we will provide an advanced search tool to better search the existing papers to prevent duplication and easier reference findings. Our analysis provides a comprehensive overview of the research landscape in the field and helps researchers and practitioners to better understand the state-of-the-art and identify areas for future research. | 翻訳日:2023-10-16 13:43:26 公開日:2023-10-13 |
# マルチモーダル生成を容易にする:拡散モデルがLLMと出会うとき Making Multimodal Generation Easier: When Diffusion Models Meet LLMs ( http://arxiv.org/abs/2310.08949v1 ) ライセンス: Link先を確認 | Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu | (参考訳) 本稿では,拡散モデルと大規模言語モデル(LLM)の機能を活用することで,マルチモーダル理解と生成を向上する効率的なモデルであるEasyGenを提案する。
CLIPやImageBindのようなエンコーダに依存し、モダリティ間のギャップを埋めるために十分な量のトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenはBiDiffuserという双方向条件拡散モデルの上に構築されており、モダリティ間のより効率的な相互作用を促進する。
easygen は bidiffuser と llm を単純な投影層で統合することで、画像からテキストへの生成を処理する。
テキスト応答の生成に制限のある既存の多くのマルチモーダルモデルとは異なり、EasyGenはLLMを利用してテキスト記述を作成することで、テキスト・ツー・イメージ生成を容易にすることができる。
大規模な定量的および定性的実験は、実験室で容易に訓練できるEasyGenの有効性を示す。
ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。 We present EasyGen, an efficient model designed to enhance multimodal understanding and generation by harnessing the capabilities of diffusion models and large language models (LLMs). Unlike existing multimodal models that predominately depend on encoders like CLIP or ImageBind and need ample amounts of training data to bridge the gap between modalities, EasyGen is built upon a bidirectional conditional diffusion model named BiDiffuser, which promotes more efficient interactions between modalities. EasyGen handles image-to-text generation by integrating BiDiffuser and an LLM via a simple projection layer. Unlike most existing multimodal models that are limited to generating text responses, EasyGen can also facilitate text-to-image generation by leveraging the LLM to create textual descriptions, which can be interpreted by BiDiffuser to generate appropriate visual responses. Extensive quantitative and qualitative experiments demonstrate the effectiveness of EasyGen, whose training can be easily achieved in a lab setting. The source code is available at https://github.com/zxy556677/EasyGen. | 翻訳日:2023-10-16 13:43:10 公開日:2023-10-13 |
# プロンプトによるフェデレーションクラスインクリメンタルラーニング Federated Class-Incremental Learning with Prompting ( http://arxiv.org/abs/2310.08948v1 ) ライセンス: Link先を確認 | Jiale Liu, Yu-Wei Zhan, Chong-Yu Zhang, Xin Luo, Zhen-Duo Chen, Yinwei Wei, and Xin-Shun Xu | (参考訳) Web技術が発展を続けるにつれて、異なるクライアントに格納されたデータを使うことがますます一般的になっている。
同時に、さまざまなクライアントに分散したデータからモデルを学習させる際に、データプライバシを保護する能力から、フェデレーション学習が広く注目を集めている。
しかし、既存の作品の多くは、クライアントのデータが修正されていると仮定している。
現実のシナリオでは、そのような仮定はデータが連続的に生成され、新しいクラスも現れるため、ほとんど真実ではない。
そこで我々は,fcil(federated class-incremental learning)問題に注目する。
fcilの場合、ローカルモデルとグローバルモデルは、新しいクラスが到着し、クライアントのデータ分散が非独立かつ同一の分散(非iid)によって引き起こされる古いクラスを壊滅的に忘れてしまう可能性がある。
本稿では,FCILPT(Federated Class-Incremental Learning with PrompTing)と呼ばれる新しい手法を提案する。
プライバシとメモリの制限を考えると、fcilptはリハーサルベースのバッファを使用しない。
私たちは、古いクラスの破滅的な忘れるのを楽にするためにプロンプトを使うように選択します。
具体的には、タスク関連知識とタスク関連知識をプロンプトにエンコードし、ローカルクライアントの旧来の知識を保存し、破滅的な忘れを解く。
グローバルアグリゲーションの前に、まずローカルクライアントのプロンプトプール内のタスク情報をソートし、異なるクライアント上のタスク情報を整列させる。
同じタスクの知識が完全に統合され、同じインクリメンタルなタスクで異なるクライアント間でクラスが欠如することによる非iidの問題が解決される。
CIFAR-100、Mini-ImageNet、Tiny-ImageNetの実験では、FCILPTは最先端の手法よりも大幅に精度が向上している。 As Web technology continues to develop, it has become increasingly common to use data stored on different clients. At the same time, federated learning has received widespread attention due to its ability to protect data privacy when let models learn from data which is distributed across various clients. However, most existing works assume that the client's data are fixed. In real-world scenarios, such an assumption is most likely not true as data may be continuously generated and new classes may also appear. To this end, we focus on the practical and challenging federated class-incremental learning (FCIL) problem. For FCIL, the local and global models may suffer from catastrophic forgetting on old classes caused by the arrival of new classes and the data distributions of clients are non-independent and identically distributed (non-iid). In this paper, we propose a novel method called Federated Class-Incremental Learning with PrompTing (FCILPT). Given the privacy and limited memory, FCILPT does not use a rehearsal-based buffer to keep exemplars of old data. We choose to use prompts to ease the catastrophic forgetting of the old classes. Specifically, we encode the task-relevant and task-irrelevant knowledge into prompts, preserving the old and new knowledge of the local clients and solving the problem of catastrophic forgetting. We first sort the task information in the prompt pool in the local clients to align the task information on different clients before global aggregation. It ensures that the same task's knowledge are fully integrated, solving the problem of non-iid caused by the lack of classes among different clients in the same incremental task. Experiments on CIFAR-100, Mini-ImageNet, and Tiny-ImageNet demonstrate that FCILPT achieves significant accuracy improvements over the state-of-the-art methods. | 翻訳日:2023-10-16 13:42:51 公開日:2023-10-13 |
# CAMELL:ラベル検証による効果的な自己教師型能動学習のための信頼に基づく獲得モデル CAMELL: Confidence-based Acquisition Model for Efficient Self-supervised Active Learning with Label Validation ( http://arxiv.org/abs/2310.08944v1 ) ライセンス: Link先を確認 | Carel van Niekerk, Christian Geishauser, Michael Heck, Shutong Feng, Hsien-chin Lin, Nurul Lubis, Benjamin Ruppik and Renato Vukovic and Milica Ga\v{s}i\'c | (参考訳) 監視されたニューラルアプローチは、大規模で慎重に注釈付けされたデータセットに依存しているため、特にシーケンシャルなタスクには厄介な要件である。
アノテーションの品質は、エキスパートベースからクラウドソースラベリングへの移行によって悪化する傾向にある。
これらの課題に対処するために,我々は,逐次的マルチアウトプット問題に適したプール型アクティブラーニングフレームワークである \textbf{camell} (confidence-based acquisition model for efficient self-supervised active learning with label validation)を提案する。
CAMELLには3つの中核的な特徴がある:(1) 選択されたシーケンスのごく一部だけをラベル付けする専門家アノテータ、(2) 配列の残りの部分の自己監督を促進すること、(3) 誤ったラベルがデータセットを汚染しモデル性能を損なうことを防ぐためにラベル検証機構を使用する。
対話的信念追跡を特に重視し,限られたデータとうるさいデータの制約に苦しめられた課題として,シーケンシャルタスクにおけるラクダを評価した。
実験の結果,CAMELLは効率の点でベースラインを上回っていることがわかった。
さらに,提案手法が提案するデータ補正は,得られたデータセットの品質の全体的な改善に寄与する。 Supervised neural approaches are hindered by their dependence on large, meticulously annotated datasets, a requirement that is particularly cumbersome for sequential tasks. The quality of annotations tends to deteriorate with the transition from expert-based to crowd-sourced labelling. To address these challenges, we present \textbf{CAMELL} (Confidence-based Acquisition Model for Efficient self-supervised active Learning with Label validation), a pool-based active learning framework tailored for sequential multi-output problems. CAMELL possesses three core features: (1) it requires expert annotators to label only a fraction of a chosen sequence, (2) it facilitates self-supervision for the remainder of the sequence, and (3) it employs a label validation mechanism to prevent erroneous labels from contaminating the dataset and harming model performance. We evaluate CAMELL on sequential tasks, with a special emphasis on dialogue belief tracking, a task plagued by the constraints of limited and noisy datasets. Our experiments demonstrate that CAMELL outperforms the baselines in terms of efficiency. Furthermore, the data corrections suggested by our method contribute to an overall improvement in the quality of the resulting datasets. | 翻訳日:2023-10-16 13:42:19 公開日:2023-10-13 |
# 対話生成における知識内部化のための多段階適応型コントラスト学習 Multi-level Adaptive Contrastive Learning for Knowledge Internalization in Dialogue Generation ( http://arxiv.org/abs/2310.08943v1 ) ライセンス: Link先を確認 | Chenxu Yang, Zheng Lin, Lanrui Wang, Chong Tian, Liang Pang, Jiangnan Li, Yanan Cao, Weiping Wang | (参考訳) 知識基底対話生成は、文脈を補うために外部知識を取り入れることで、テキストの劣化を緩和することを目的としている。
しかし、このモデルは、しばしば、この情報を人間のような方法で応答に内部化できない。
代わりに、提供される知識のセグメントを一般的な応答に挿入する。
その結果、生成した応答は退屈で不整合性があり、縮退問題は未解決であることを意味する相互作用性の欠如が生じる傾向にある。
そこで本研究では,このような複写スタイルの退化は,主に弱い可能性目標が原因であり,オーバーラップに基づく表面パターンマッチングにおいて,単に知識セグメントを重複させることで,目的を「熱く」することができる。
この課題を克服するために、陰例を動的にサンプリングし、トークンレベルとシーケンスレベルの両方で退化挙動を罰する多レベル適応コントラスト学習(MACL)フレームワークを提案する。
WoWデータセットの大規模な実験により、様々な事前学習モデルにまたがるアプローチの有効性が示された。 Knowledge-grounded dialogue generation aims to mitigate the issue of text degeneration by incorporating external knowledge to supplement the context. However, the model often fails to internalize this information into responses in a human-like manner. Instead, it simply inserts segments of the provided knowledge into generic responses. As a result, the generated responses tend to be tedious, incoherent, and in lack of interactivity which means the degeneration problem is still unsolved. In this work, we first find that such copying-style degeneration is primarily due to the weak likelihood objective, which allows the model to "cheat" the objective by merely duplicating knowledge segments in a superficial pattern matching based on overlap. To overcome this challenge, we then propose a Multi-level Adaptive Contrastive Learning (MACL) framework that dynamically samples negative examples and subsequently penalizes degeneration behaviors at both the token-level and sequence-level. Extensive experiments on the WoW dataset demonstrate the effectiveness of our approach across various pre-trained models. | 翻訳日:2023-10-16 13:41:56 公開日:2023-10-13 |
# 擬似ラッソ改質による最適設計のための高速スクリーニング法 Fast Screening Rules for Optimal Design via Quadratic Lasso Reformulation ( http://arxiv.org/abs/2310.08939v1 ) ライセンス: Link先を確認 | Guillaume Sagnol and Luc Pronzato | (参考訳) ラッソ回帰と実験の最適設計の問題は重要な性質を共有している:それらの最適解は典型的には \emph{sparse} である。
したがって、最適解の支持体の同定は問題の次元性を減少させ、計算の大幅な単純化をもたらすことができる。
最近、emph{squared} $\ell_1$-normスペーシティ誘導ペナルティを用いた線形回帰は最適な実験設計問題と同値であることが示されている。
本研究では,この等価性を用いて,不要なサンプルの廃棄に使用できる安全なスクリーニングルールを導出する。
従来のルールと比較して、新しいテストは特に高次元のパラメータ空間に関わる問題に対して計算がはるかに速く、計算オーバーヘッドが無視できるような反復解法内で動的に使用できる。
さらに、ラッソ法の正規化経路を計算するための既存のホモトピーアルゴリズムが、正方形の$\ell_1$-penaltyに対して再パラメータ化可能であることを示す。
これにより、ベイズ$c$-最適設計を有限ステップで計算でき、標準的な一階アルゴリズムよりも数桁早く計算できる。
新しいスクリーニングルールとホモトピーアルゴリズムの効率は実データに基づいて異なる例で示される。 The problems of Lasso regression and optimal design of experiments share a critical property: their optimal solutions are typically \emph{sparse}, i.e., only a small fraction of the optimal variables are non-zero. Therefore, the identification of the support of an optimal solution reduces the dimensionality of the problem and can yield a substantial simplification of the calculations. It has recently been shown that linear regression with a \emph{squared} $\ell_1$-norm sparsity-inducing penalty is equivalent to an optimal experimental design problem. In this work, we use this equivalence to derive safe screening rules that can be used to discard inessential samples. Compared to previously existing rules, the new tests are much faster to compute, especially for problems involving a parameter space of high dimension, and can be used dynamically within any iterative solver, with negligible computational overhead. Moreover, we show how an existing homotopy algorithm to compute the regularization path of the lasso method can be reparametrized with respect to the squared $\ell_1$-penalty. This allows the computation of a Bayes $c$-optimal design in a finite number of steps and can be several orders of magnitude faster than standard first-order algorithms. The efficiency of the new screening rules and of the homotopy algorithm are demonstrated on different examples based on real data. | 翻訳日:2023-10-16 13:41:37 公開日:2023-10-13 |
# 構造化光システムにおける動的シーンのオンライン適応差分推定 Online Adaptive Disparity Estimation for Dynamic Scenes in Structured Light Systems ( http://arxiv.org/abs/2310.08934v1 ) ライセンス: Link先を確認 | Rukun Qiao, Hiroshi Kawasaki, Hongbin Zha | (参考訳) 近年、ディープニューラルネットワークは、単眼構造光システムにおいて、動的シーンから密度の差を推定する顕著な進歩を示している。
しかし、その性能は目に見えない環境では著しく低下する。
この問題に対処するために、このパフォーマンスギャップを埋めるソリューションとして、自己教師付きオンライン適応が提案されている。
従来の微調整プロセスとは異なり、オンライン適応は新しいドメインにネットワークを適用するテストタイム最適化を実行する。
したがって、適応プロセス中に高速収束を達成することは、精度の確保に不可欠である。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
勾配方向が良くなり、収束が速くなる。
損失関数は、シーケンスに沿って投影されたパターンのスパースな軌跡の集合からなるマルチフレームパターンフローを用いて設計する。
我々は,オンライン適応プロセスのガイドとなるフィルタ方式を用いて,信頼マスクを用いたスパース擬似基底真理を推定する。
提案フレームワークは,オンライン適応速度を大幅に向上させ,未取得データに対して優れた性能を実現する。 In recent years, deep neural networks have shown remarkable progress in dense disparity estimation from dynamic scenes in monocular structured light systems. However, their performance significantly drops when applied in unseen environments. To address this issue, self-supervised online adaptation has been proposed as a solution to bridge this performance gap. Unlike traditional fine-tuning processes, online adaptation performs test-time optimization to adapt networks to new domains. Therefore, achieving fast convergence during the adaptation process is critical for attaining satisfactory accuracy. In this paper, we propose an unsupervised loss function based on long sequential inputs. It ensures better gradient directions and faster convergence. Our loss function is designed using a multi-frame pattern flow, which comprises a set of sparse trajectories of the projected pattern along the sequence. We estimate the sparse pseudo ground truth with a confidence mask using a filter-based method, which guides the online adaptation process. Our proposed framework significantly improves the online adaptation speed and achieves superior performance on unseen data. | 翻訳日:2023-10-16 13:41:16 公開日:2023-10-13 |
# ファウショット学習のためのサブスペース適応 Subspace Adaptation Prior for Few-Shot Learning ( http://arxiv.org/abs/2310.09028v1 ) ライセンス: Link先を確認 | Mike Huisman, Aske Plaat, Jan N. van Rijn | (参考訳) グラディエントに基づくメタラーニング技術は、学習課題の集合から有用な事前知識を抽出し、勾配降下によって新しいタスクをより効率的に学習することを目的としている。
これらの手法は様々なシナリオで成功したが、新しいタスクを学ぶ際にトレーニング可能なレイヤのパラメータをすべて適応することが一般的である。
これは、与えられたタスク分布に対する潜在的に効率的な学習戦略を無視し、特に限られた数例からタスクを学ばなければならない少数の学習において、過度に適合する可能性がある。
これらの問題に対処するために,我々は,適切な初期化パラメータ(優先知識)とレイヤワイズパラメータのサブスペースを,適応すべき操作部分集合の形で共同で学習する,新しい勾配に基づくメタ学習アルゴリズムであるsubspace adapt prior (sap)を提案する。
このようにして、sapは、基礎となるタスク分散に基づいて勾配降下で調整する操作サブセットを学習でき、新しいタスクを学習するときにオーバーフィットするリスクを低減できる。
SAPは画像の分類設定(精度0.1%から3.9%)において、優れた性能または競争性能を得るので、この能力は有用であることを示す。
学習した部分空間の解析は、低次元操作がしばしば高い活性化強度をもたらすことを示し、それらが良好な数発の学習性能を達成するために重要であることを示している。
再現性のために、我々はすべての研究コードを公開している。 Gradient-based meta-learning techniques aim to distill useful prior knowledge from a set of training tasks such that new tasks can be learned more efficiently with gradient descent. While these methods have achieved successes in various scenarios, they commonly adapt all parameters of trainable layers when learning new tasks. This neglects potentially more efficient learning strategies for a given task distribution and may be susceptible to overfitting, especially in few-shot learning where tasks must be learned from a limited number of examples. To address these issues, we propose Subspace Adaptation Prior (SAP), a novel gradient-based meta-learning algorithm that jointly learns good initialization parameters (prior knowledge) and layer-wise parameter subspaces in the form of operation subsets that should be adaptable. In this way, SAP can learn which operation subsets to adjust with gradient descent based on the underlying task distribution, simultaneously decreasing the risk of overfitting when learning new tasks. We demonstrate that this ability is helpful as SAP yields superior or competitive performance in few-shot image classification settings (gains between 0.1% and 3.9% in accuracy). Analysis of the learned subspaces demonstrates that low-dimensional operations often yield high activation strengths, indicating that they may be important for achieving good few-shot learning performance. For reproducibility purposes, we publish all our research code publicly. | 翻訳日:2023-10-16 13:34:14 公開日:2023-10-13 |
# 混合ノイズフィギュアを用いた量子リピータネットワークのルーティング Routing in Quantum Repeater Networks with Mixed Noise Figures ( http://arxiv.org/abs/2310.08990v1 ) ライセンス: Link先を確認 | Vinay Kumar, Claudio Cicconetti, Marco Conti, and Andrea Passarella | (参考訳) 量子ネットワークは、次世代の安全な通信、長距離通信、量子インターネットの鍵を握っている。
本質的に量子効果のため、量子ネットワーク内のルーティングは大きな課題である。
本研究では,ネットワークからソースとデスティネーションを分離することにより,実世界のネットワークをミラーすることを目的とした,量子ネットワークのルーティングに対する現実的なアプローチを検討する。
実際の制約に対処することにより、ネットワーク性能に対する異種ノードの影響を検討する。
特に,高品質ノードと全ノードの比率と経路設定順序の観点から,性能に着目した。
この研究は、それらの関係とコミュニケーションパスの忠実さを明らかにする。
エンドツーエンドの忠実性において、高品質なノードのごく一部が持つ重要な役割を強調し、すべてのノードを高品質にアップグレードするか、低品質なノードのサブセットを保持するかのトレードオフを探る。
シミュレーションの結果,ノード品質の知識を組み込むことは,経路の一部のフィダリティを戦略的に向上させるだけでなく,量子ネットワーク内のブロックされた経路の数を減少させる。 Quantum network holds the key to the next generation of secure communication, long-distance communication, and quantum internet. Due to inherent quantum effects, routing in the quantum network is a major challenge. This study explores a realistic approach to routing in quantum networks which aims to mirror real-world networks by segregating sources and destinations from the network. By addressing practical constraints we examine the impact of heterogeneous nodes on network performance. In particular, we focused on performance in terms of the ratio of high-quality to total nodes and path establishment order. This work unveils relationships between them and communication path fidelity. It highlights the critical role of the fraction of high-quality nodes in end-to-end fidelity and explores the trade-offs between upgrading all nodes to high quality or retaining a subset of lower-quality nodes. Our simulations show that incorporating the knowledge of node quality not only helps in strategically boosting the fidelities of some of the routing paths but also reduces the number of blocked paths in the quantum network. | 翻訳日:2023-10-16 13:33:51 公開日:2023-10-13 |
# 経路予測サービス Reroute Prediction Service ( http://arxiv.org/abs/2310.08988v1 ) ライセンス: Link先を確認 | \'Italo Romani de Oliveira, Samet Ayhan, Michael Biglin, Pablo Costas, Euclides C. Pinto Neto | (参考訳) 遅延のコストは、2019年に米国航空宇宙局(national airspace system)が3300億ドル(約3兆3000億円)と見積もった。
この巨大な非効率に対処するため,我々は,意思決定の再調整を積極的に支援することにより遅延を削減することを目的とした,新しいデータ分析および機械学習システムを設計し,開発した。
今後数日以内の期間を想定して、ある航空路交通管制センターまたは特定の諮問識別子に対する再ルート勧告が発行されるかどうかを予測し、関連する経路に影響を与える可能性がある。
このような予測を実現するために、FAAが提供するシステムワイド・インフォメーション・マネジメント(SWIM)データサービスから収集された歴史的再帰データと、アメリカ国立環境予報センター(NCEP)が提供する気象データを使用する。
データは膨大な量であり、多くのアイテムが高速で流れており、関連性がなくノイズが多い。
システムは、受信した生データを継続的に処理し、中間データストアを作成し、効率的なクエリ処理のために適応的に保守する次のステップで利用できるようにする。
その結果得られたデータは、高い精度で競合する一連のmlアルゴリズムに供給される。
最高の性能のアルゴリズムは最終予測に使われ、最終的な結果を生成する。
本システムを用いた実験では,90%以上の平均精度値を得た。
本手法では,各地理単位における天気予報パラメータの累積指標の時間系列を用いて,各単位に対する関心領域を分割し,リルータとの相関関係と最も起こりそうな場所を検出する。
実際のアプリケーションを想定したシステムは、クラウドにデプロイされる多数のマイクロサービスによって構成され、システムを分散し、スケーラブルで高可用性にする。 The cost of delays was estimated as 33 billion US dollars only in 2019 for the US National Airspace System, a peak value following a growth trend in past years. Aiming to address this huge inefficiency, we designed and developed a novel Data Analytics and Machine Learning system, which aims at reducing delays by proactively supporting re-routing decisions. Given a time interval up to a few days in the future, the system predicts if a reroute advisory for a certain Air Route Traffic Control Center or for a certain advisory identifier will be issued, which may impact the pertinent routes. To deliver such predictions, the system uses historical reroute data, collected from the System Wide Information Management (SWIM) data services provided by the FAA, and weather data, provided by the US National Centers for Environmental Prediction (NCEP). The data is huge in volume, and has many items streamed at high velocity, uncorrelated and noisy. The system continuously processes the incoming raw data and makes it available for the next step where an interim data store is created and adaptively maintained for efficient query processing. The resulting data is fed into an array of ML algorithms, which compete for higher accuracy. The best performing algorithm is used in the final prediction, generating the final results. Mean accuracy values higher than 90% were obtained in our experiments with this system. Our algorithm divides the area of interest in units of aggregation and uses temporal series of the aggregate measures of weather forecast parameters in each geographical unit, in order to detect correlations with reroutes and where they will most likely occur. Aiming at practical application, the system is formed by a number of microservices, which are deployed in the cloud, making the system distributed, scalable and highly available. | 翻訳日:2023-10-16 13:33:35 公開日:2023-10-13 |
# ICCV 2023テクニカルレポートVCL Challenges 2023: Bi-level Adaptation Method for Test-time Adaptive Object Detection VCL Challenges 2023 at ICCV 2023 Technical Report: Bi-level Adaptation Method for Test-time Adaptive Object Detection ( http://arxiv.org/abs/2310.08986v1 ) ライセンス: Link先を確認 | Chenyu Lin, Yusheng He, Zhengqing Zang, Chenwei Tang, Tao Wang, Jiancheng Lv | (参考訳) 本報告では,このアプローチの技術的詳細に注目したvclチャレンジb continual test_time adaptationへのチーム参加について概説する。
第一の焦点は、バイレベル適応を用いたテスト時間適応であり、画像レベルと検出器レベル適応を含む。
画像レベルでは調整可能なパラメータベースのイメージフィルタを用い、検出器レベルでは調整可能なパラメータベースの平均教師モジュールを利用する。
最終的に、これらのバイレベル適応を利用することで、VCLチャレンジB内のテストセットのターゲットドメインにおいて38.3%のmAPを達成した。 This report outlines our team's participation in VCL Challenges B Continual Test_time Adaptation, focusing on the technical details of our approach. Our primary focus is Testtime Adaptation using bi_level adaptations, encompassing image_level and detector_level adaptations. At the image level, we employ adjustable parameterbased image filters, while at the detector level, we leverage adjustable parameterbased mean teacher modules. Ultimately, through the utilization of these bi_level adaptations, we have achieved a remarkable 38.3% mAP on the target domain of the test set within VCL Challenges B. It is worth noting that the minimal drop in mAP, is mearly 4.2%, and the overall performance is 32.5% mAP. | 翻訳日:2023-10-16 13:32:48 公開日:2023-10-13 |
# UniParser: 相関表現学習を統一したマルチヒューマンパーシング UniParser: Multi-Human Parsing with Unified Correlation Representation Learning ( http://arxiv.org/abs/2310.08984v1 ) ライセンス: Link先を確認 | Jiaming Chu, Lei Jin, Junliang Xing and Jian Zhao | (参考訳) マルチヒューマンパーシング(Multi- Human parsing)は、インスタンスレベルと詳細なカテゴリレベルの情報の両方を必要とするイメージセグメンテーションタスクである。
しかしながら、先行研究は通常、これらの2つのタイプの情報を別々のブランチと別々の出力フォーマットを通じて処理し、非効率で冗長なフレームワークを生み出している。
本稿では、インスタンスレベルとカテゴリレベルの表現を3つの重要な側面に統合するUniParserを紹介する。
1)コサイン空間内のインスタンスやカテゴリの特徴をネットワークで学べる統合された相関表現学習手法を提案する。
2)各モジュールの出力形式を画素レベルのセグメンテーション結果として統一し,補助損失を伴う均質ラベルを用いてインスタンスとカテゴリの特徴を監督する。
3)インスタンスとカテゴリ表現を融合させる共同最適化手法を設計する。
インスタンスレベルの出力とカテゴリレベルの出力を統合することで、UniParserは手動で設計した後処理技術を回避し、最先端の手法を超越し、MHPv2.0では49.3%のAP、CIHPでは60.4%のAPを達成した。
今後の研究を促進するために、ソースコード、トレーニング済みモデル、オンラインデモをリリースします。 Multi-human parsing is an image segmentation task necessitating both instance-level and fine-grained category-level information. However, prior research has typically processed these two types of information through separate branches and distinct output formats, leading to inefficient and redundant frameworks. This paper introduces UniParser, which integrates instance-level and category-level representations in three key aspects: 1) we propose a unified correlation representation learning approach, allowing our network to learn instance and category features within the cosine space; 2) we unify the form of outputs of each modules as pixel-level segmentation results while supervising instance and category features using a homogeneous label accompanied by an auxiliary loss; and 3) we design a joint optimization procedure to fuse instance and category representations. By virtual of unifying instance-level and category-level output, UniParser circumvents manually designed post-processing techniques and surpasses state-of-the-art methods, achieving 49.3% AP on MHPv2.0 and 60.4% AP on CIHP. We will release our source code, pretrained models, and online demos to facilitate future studies. | 翻訳日:2023-10-16 13:32:25 公開日:2023-10-13 |
# ビッグデータによる航空空間の混雑予測 Big data-driven prediction of airspace congestion ( http://arxiv.org/abs/2310.08982v1 ) ライセンス: Link先を確認 | Samet Ayhan, \'Italo Romani de Oliveira, Glaucia Balvedi, Pablo Costas, Alexandre Leite, Felipe C. F. de Azevedo | (参考訳) 航空航法サービスプロバイダ(ANSP)は、空域密度とも呼ばれる特定の空域内の航空機の数を測定・予測するためのより良い方法の開発に、多大な努力を払っている。
航空空間密度の正確な測定と予測は、戦略的にも戦術的にもより良い管理された航空空間に不可欠であり、より高いレベルの自動化を実現し、航空管制官の作業負荷を減少させる。
従来の手法ではある程度この問題に対処できたが、航空機数予測などの様々な分析目的のために、大量の航空交通データを高速で増加させるデータ管理とクエリ処理は、特に線形予測モデルのみを使用する場合、依然として課題である。
本稿では,国立航空宇宙システム(NAS)内の特定の空域セクターの航空機数を正確に予測する新しいデータ管理・予測システムを提案する。
入ってくるトラフィックフロー管理(tfm)データは、ストリーミングであり、大きく、非相関であり、うるさい。
事前処理ステップでは、システムは入ってくる生データを継続的に処理し、それをコンパクトなサイズに縮小し、nosqlデータベースに格納し、効率的なクエリ処理のためにデータを利用可能にする。
予測ステップでは、システムは過去の軌道から学習し、セグメントを使用してセクタ境界交差、気象パラメータ、その他の航空交通データなどの重要な特徴を収集する。
これらの特徴は線形、非線形、アンサンブルモデルを含む様々な回帰モデルに与えられ、最良の実行モデルが予測に使用される。
米国における国境横断を含む実線,天気,航空交通の広範なデータの評価により,我々のシステムが各空域における航空機の数を効率的に正確に予測できることが確認された。 Air Navigation Service Providers (ANSP) worldwide have been making a considerable effort for the development of a better method to measure and predict aircraft counts within a particular airspace, also referred to as airspace density. An accurate measurement and prediction of airspace density is crucial for a better managed airspace, both strategically and tactically, yielding a higher level of automation and thereby reducing the air traffic controller's workload. Although the prior approaches have been able to address the problem to some extent, data management and query processing of ever-increasing vast volume of air traffic data at high rates, for various analytics purposes such as predicting aircraft counts, still remains a challenge especially when only linear prediction models are used. In this paper, we present a novel data management and prediction system that accurately predicts aircraft counts for a particular airspace sector within the National Airspace System (NAS). The incoming Traffic Flow Management (TFM) data is streaming, big, uncorrelated and noisy. In the preprocessing step, the system continuously processes the incoming raw data, reduces it to a compact size, and stores it in a NoSQL database, where it makes the data available for efficient query processing. In the prediction step, the system learns from historical trajectories and uses their segments to collect key features such as sector boundary crossings, weather parameters, and other air traffic data. The features are fed into various regression models, including linear, non-linear and ensemble models, and the best performing model is used for prediction. Evaluation on an extensive set of real track, weather, and air traffic data including boundary crossings in the U.S. verify that our system efficiently and accurately predicts aircraft counts in each airspace sector. | 翻訳日:2023-10-16 13:31:30 公開日:2023-10-13 |
# 多目的NLPチャットボット : 設計・方法論・結論 Multi-Purpose NLP Chatbot : Design, Methodology & Conclusion ( http://arxiv.org/abs/2310.08977v1 ) ライセンス: Link先を確認 | Shivom Aggarwal, Shourya Mehra, Pritha Mitra | (参考訳) 本研究は,その歴史,困難,約束に大きく焦点を合わせ,現在あるチャットボット技術環境を徹底的に分析する。
ユーザインタラクションと会話体験を改善するために強化学習戦略を利用する、非常に柔軟なチャットボットシステムを提供する。
さらに,感情分析と自然言語処理を利用してユーザの気分を判断する。
このチャットボットは、音声と音声の会話、多言語サポート(12]、アドバイススキル、オフライン機能、クイックヘルプ機能など、多くの分野にまたがる貴重なツールだ。
チャットボット技術の開発の複雑さと、これらの開発を推進してきた要因と、それらが様々な分野に及ぼした影響についても検討する。
研究によると 3つの重要な要素が重要です
1) 明確なプロファイル情報がなくても, 独特の消費者嗜好を理解し, 満足度を変動させるチャットボットシステムを構築する。
このキャパシティを使用することで、ユーザインタラクションは、自身の要望や好みを満たすために行われる。
2)マルチビュー音声チャット情報をインターレースする複雑な手法を用いて、チャットボットはユーザの実際の体験を正確にシミュレートすることができる。
これにより、より本物で興味深い議論が展開される。
3) 本研究は,ブラックボックス深層学習モデルの予測能力を向上させるためのオリジナル手法を提案する。
この改善は、理論駆動の動的満足度測定を導入し、消費者反応をより正確に予測することで実現される。 With a major focus on its history, difficulties, and promise, this research paper provides a thorough analysis of the chatbot technology environment as it exists today. It provides a very flexible chatbot system that makes use of reinforcement learning strategies to improve user interactions and conversational experiences. Additionally, this system makes use of sentiment analysis and natural language processing to determine user moods. The chatbot is a valuable tool across many fields thanks to its amazing characteristics, which include voice-to-voice conversation, multilingual support [12], advising skills, offline functioning, and quick help features. The complexity of chatbot technology development is also explored in this study, along with the causes that have propelled these developments and their far-reaching effects on a range of sectors. According to the study, three crucial elements are crucial: 1) Even without explicit profile information, the chatbot system is built to adeptly understand unique consumer preferences and fluctuating satisfaction levels. With the use of this capacity, user interactions are made to meet their wants and preferences. 2) Using a complex method that interlaces Multiview voice chat information, the chatbot may precisely simulate users' actual experiences. This aids in developing more genuine and interesting discussions. 3) The study presents an original method for improving the black-box deep learning models' capacity for prediction. This improvement is made possible by introducing dynamic satisfaction measurements that are theory-driven, which leads to more precise forecasts of consumer reaction. | 翻訳日:2023-10-16 13:30:46 公開日:2023-10-13 |
# ChatKBQA: 微調整大言語モデルを用いた知識ベース質問応答のための生成候補検索フレームワーク ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models ( http://arxiv.org/abs/2310.08975v1 ) ライセンス: Link先を確認 | Haoran Luo, Haihong E, Zichen Tang, Shiyao Peng, Yikai Guo, Wentai Zhang, Chenghao Ma, Guanting Dong, Meina Song, Wei Lin | (参考訳) Knowledge Base Question Answering (KBQA) は、知識検索と意味解析の2つの研究要素に分けられる大規模知識ベース(KB)に対して、自然言語による質問に対する回答を導出することを目的としている。
しかし,非効率な知識検索,意味解析に悪影響を及ぼす検索誤り,従来のKBQA手法の複雑さなど,3つの課題が残っている。
大規模言語モデル(LLM)の時代には,Llama-2, ChatGLM2, Baichuan2などのオープンソースのLLMを微調整して構築した,新規な生成列検索KBQAフレームワークであるChatKBQAを紹介する。
ChatKBQAは、まず微調整 LLM で論理形式を生成することを提案し、その後、教師なし検索法によりエンティティとリレーションを検索し、置き換えることにより、生成と検索の両方をより容易にする。
実験結果から,ChatKBQAは,標準KBQAデータセット,WebQSP,複合WebQuestions(CWQ)上で,新たな最先端のパフォーマンスを実現することが明らかになった。
llmと知識グラフ(kgs)を組み合わせることで、解釈可能で知識要求の質問応答を行うための新しいパラダイムも提供する。
私たちのコードは公開されています。 Knowledge Base Question Answering (KBQA) aims to derive answers to natural language questions over large-scale knowledge bases (KBs), which are generally divided into two research components: knowledge retrieval and semantic parsing. However, three core challenges remain, including inefficient knowledge retrieval, retrieval errors adversely affecting semantic parsing, and the complexity of previous KBQA methods. In the era of large language models (LLMs), we introduce ChatKBQA, a novel generate-then-retrieve KBQA framework built on fine-tuning open-source LLMs such as Llama-2, ChatGLM2 and Baichuan2. ChatKBQA proposes generating the logical form with fine-tuned LLMs first, then retrieving and replacing entities and relations through an unsupervised retrieval method, which improves both generation and retrieval more straightforwardly. Experimental results reveal that ChatKBQA achieves new state-of-the-art performance on standard KBQA datasets, WebQSP, and ComplexWebQuestions (CWQ). This work also provides a new paradigm for combining LLMs with knowledge graphs (KGs) for interpretable and knowledge-required question answering. Our code is publicly available. | 翻訳日:2023-10-16 13:30:22 公開日:2023-10-13 |
# トポロジカル配位グラフェンジグザグナノリボンの位相相転移に関する相互情報と相関 Mutual information and correlations across topological phase transitions in topologically ordered graphene zigzag nanoribbons ( http://arxiv.org/abs/2310.08970v1 ) ライセンス: Link先を確認 | In Hwan Lee, Hoang Anh Le, and S.-R. Eric Yang | (参考訳) グラフェンジグザグナノリボンは、当初は位相秩序状態にあり、準位相秩序によって区別される交差相へと位相相転移する。
位相秩序相と交差相の両方の相互情報を計算し,以下の結果を明らかにした。
i) トポロジカル秩序相では, ジグザグリボンの反対側でA-キラリティー炭素線がB-キラリティー炭素線と強く絡み合う。
この絡み合いは持続するが、交叉相では弱まる。
(ii)上部ジグザグエッジは、リボンの反対側に異なるキラリティーの非エッジ線が絡み合っている。
3) 炭素線が重なり合うにつれて, 直線のキラリティーによらず, 絡み合いが増大する。
乱れのない対称性保護相では長距離の絡み合いは認められなかった。 Graphene zigzag nanoribbons, initially in a topologically ordered state, undergo a topological phase transition into crossover phases distinguished by quasi-topological order. We computed mutual information for both the topologically ordered phase and its crossover phases, revealing the following results: (i) In the topologically ordered phase, A-chirality carbon lines strongly entangle with B-chirality carbon lines on the opposite side of the zigzag ribbon. This entanglement persists but weakens in crossover phases. (ii) The upper zigzag edge entangles with non-edge lines of different chirality on the opposite side of the ribbon. (iii) Entanglement increases as more carbon lines are grouped together, regardless of the lines' chirality. No long-range entanglement was found in the symmetry protected phase in the absence of disorder. | 翻訳日:2023-10-16 13:29:55 公開日:2023-10-13 |
# 多値変圧器を用いた実例ベースNMTに向けて Towards Example-Based NMT with Multi-Levenshtein Transformers ( http://arxiv.org/abs/2310.08967v1 ) ライセンス: Link先を確認 | Maxime Bouthors, Josep Crego and Fran\c{c}ois Yvon | (参考訳) Retrieval-Augmented Machine Translation (RAMT)が注目されている。
これはRAMTが翻訳メトリクスを改善するだけでなく、ある種のドメイン適応の実装も想定されているためである。
本研究は,RAMTの優れた特徴として,ユーザがこれらの決定に寄与する例に遡れるようにすることで,翻訳決定をより透明にする能力について考察する。
そこで我々は,この透明性を高めることを目的とした新しいアーキテクチャを提案する。
このモデルは、Levenshtein Transformerの検索拡張バージョンに適応し、メモリにある複数のファジィマッチングを同時に編集できるようにする。
本稿では,マルチウェイアライメントアルゴリズムと模倣学習に基づいて,このモデルでトレーニングと推論を行う方法について論じる。
実験の結果,いくつかの例の編集が翻訳スコアに肯定的な影響を与え,特に既存のインスタンスからコピーしたターゲットスパンの数が増加した。 Retrieval-Augmented Machine Translation (RAMT) is attracting growing attention. This is because RAMT not only improves translation metrics, but is also assumed to implement some form of domain adaptation. In this contribution, we study another salient trait of RAMT, its ability to make translation decisions more transparent by allowing users to go back to examples that contributed to these decisions. For this, we propose a novel architecture aiming to increase this transparency. This model adapts a retrieval-augmented version of the Levenshtein Transformer and makes it amenable to simultaneously edit multiple fuzzy matches found in memory. We discuss how to perform training and inference in this model, based on multi-way alignment algorithms and imitation learning. Our experiments show that editing several examples positively impacts translation scores, notably increasing the number of target spans that are copied from existing instances. | 翻訳日:2023-10-16 13:29:42 公開日:2023-10-13 |
# MM-BigBench:マルチモーダルコンテンツ理解タスクにおけるマルチモーダルモデルの評価 MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks ( http://arxiv.org/abs/2310.09036v1 ) ライセンス: Link先を確認 | Xiaocui Yang, Wenfang Wu, Shi Feng, Ming Wang, Daling Wang, Yang Li, Qi Sun, Yifei Zhang, Xiaoming Fu, Soujanya Poria | (参考訳) MLLM(Multimodal large language model)の人気は、これらのモデルを評価するための研究努力が近年急増している。
それにもかかわらず、mllmの既存の評価研究は、主にユニモーダル(視覚)コンテンツの理解と推論に焦点を当て、マルチモーダル(視覚言語)コンテンツ理解の領域における性能評価を無視している。
マルチモーダル推論以外にも、マルチモーダルコンテンツ理解に関わるタスクは、マルチモーダル相互作用を通じて最終的な答えを得るために、マルチモーダルコンテキストの深い理解を必要とする。
本稿では,mm-bigbenchと呼ばれる包括的評価フレームワークについて紹介する。多種多様なメトリクスを取り入れ,多様なマルチモーダルコンテンツ理解タスクにまたがる様々なモデルや命令の性能を広範囲に評価する。
その結果、マルチモーダル理解タスクにおけるMLLMの性能に関する研究を補完し、MLLMのより包括的で総合的な評価を実現した。
まず、各モデルのパフォーマンスを異なるデータセットの上限で確認するために、最高のパフォーマンスメトリクスを使用します。
その後、平均相対ゲインメトリックは、様々なモデルと指示の全体的なパフォーマンスを評価するが、安定性メトリックはそれらの感度を測定する。
さらに、従来の研究は、モデルと命令の適応性を無視し、個別または単独で指示を評価することに集中している。
モデルと命令間の適応性を定量化する適応性指標を提案する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
私たちのコードはhttps://github.com/declare-lab/MM-BigBench.comでリリースされます。 The popularity of multimodal large language models (MLLMs) has triggered a recent surge in research efforts dedicated to evaluating these models. Nevertheless, existing evaluation studies of MLLMs primarily focus on the comprehension and reasoning of unimodal (vision) content, neglecting performance evaluations in the domain of multimodal (vision-language) content understanding. Beyond multimodal reasoning, tasks related to multimodal content comprehension necessitate a profound understanding of multimodal contexts, achieved through the multimodal interaction to obtain a final answer. In this paper, we introduce a comprehensive assessment framework called MM-BigBench, which incorporates a diverse range of metrics to offer an extensive evaluation of the performance of various models and instructions across a wide spectrum of diverse multimodal content comprehension tasks. Consequently, our work complements research on the performance of MLLMs in multimodal comprehension tasks, achieving a more comprehensive and holistic evaluation of MLLMs. To begin, we employ the Best Performance metric to ascertain each model's performance upper bound on different datasets. Subsequently, the Mean Relative Gain metric offers an assessment of the overall performance of various models and instructions, while the Stability metric measures their sensitivity. Furthermore, previous research centers on evaluating models independently or solely assessing instructions, neglecting the adaptability between models and instructions. We propose the Adaptability metric to quantify the adaptability between models and instructions. Our paper evaluates a total of 20 language models (14 MLLMs) on 14 multimodal datasets spanning 6 tasks, with 10 instructions for each task, and derives novel insights. Our code will be released at https://github.com/declare-lab/MM-BigBench. | 翻訳日:2023-10-16 13:23:59 公開日:2023-10-13 |
# MINDE:相互情報ニューラル拡散推定 MINDE: Mutual Information Neural Diffusion Estimation ( http://arxiv.org/abs/2310.09031v1 ) ライセンス: Link先を確認 | Giulio Franzese, Mustapha Bounoua, Pietro Michiardi | (参考訳) 本研究では,確率変数間の相互情報(MI)を推定するための新しい手法を提案する。
本手法は,2つの密度間のカルバック・ライバーの発散をスコア関数の差として推定するために,スコアに基づく拡散モデルを用いたギルサノフの定理の解釈に基づいている。
副産物として,確率変数のエントロピーの推定も可能である。
このようなビルディングブロックを具体例として,条件拡散過程と2つの確率変数の同時モデリングを可能にする合同拡散過程の2つの方向に展開するmiを測定する一般的なレシピを提案する。
提案手法は,提案手法のすべての変種に対する徹底的な実験的プロトコルから導かれるものであり,本手法が文献,特に難解な分布に対する主な代替手段よりも正確であることを示す。
さらに,本手法では,データ処理や独立性を考慮した自己一貫性テストを実施し,既存の手法の問題点となっている。 In this work we present a new method for the estimation of Mutual Information (MI) between random variables. Our approach is based on an original interpretation of the Girsanov theorem, which allows us to use score-based diffusion models to estimate the Kullback Leibler divergence between two densities as a difference between their score functions. As a by-product, our method also enables the estimation of the entropy of random variables. Armed with such building blocks, we present a general recipe to measure MI, which unfolds in two directions: one uses conditional diffusion process, whereas the other uses joint diffusion processes that allow simultaneous modelling of two random variables. Our results, which derive from a thorough experimental protocol over all the variants of our approach, indicate that our method is more accurate than the main alternatives from the literature, especially for challenging distributions. Furthermore, our methods pass MI self-consistency tests, including data processing and additivity under independence, which instead are a pain-point of existing methods. | 翻訳日:2023-10-16 13:23:29 公開日:2023-10-13 |
# 強磁場中における非拡散相対論的電子波束 Nonspreading relativistic electron wavepacket in a strong laser field ( http://arxiv.org/abs/2310.09019v1 ) ライセンス: Link先を確認 | Andre G. Campos, Karen Z. Hatsagortsyan, Christoph H. Keitel | (参考訳) 電子の残りのフレームに非散乱波パケットを示す強いレーザー場におけるディラック方程式の解を導出する。
自己加速自由電子波パケット(Kaminer et al. Nature Phys. 11, 261 (2015))を強いレーザー場を背景に一般化したものである。
拡張相対論的波束の非拡散の概念に基づいて構築され、相対性理論における加速運動のためのボルン剛性の概念が解の鍵となる。
その核となる解は、自己加速自由電子波パケットと同値原理を介して一定で均質な重力場におけるディラック電子の固有状態との間の関係から生じる。
この解はレーザー駆動相対論的衝突型衝突型加速器(meuren et al. prl 114, 143201 (2015))の実現に向けた重要なステップである。 A solution of the Dirac equation in a strong laser field presenting a nonspreading wave packet in the rest frame of the electron is derived. It consists of a generalization of the self-accelerating free electron wave packet [Kaminer et al. Nature Phys. 11, 261 (2015)] to the case with the background of a strong laser field. Built upon the notion of nonspreading for an extended relativistic wavepacket, the concept of Born rigidity for accelerated motion in relativity is the key ingredient of the solution. At its core, the solution comes from the connection between the self-accelerated free electron wave packet and the eigenstate of a Dirac electron in a constant and homogeneous gravitational field via the equivalence principle. The solution is an essential step towards the realization of the laser-driven relativistic collider [Meuren et al. PRL 114, 143201 (2015)], where the large spreading of a common Gaussian wave packet during the excursion in a strong laser field strongly limits the expectable yields. | 翻訳日:2023-10-16 13:23:13 公開日:2023-10-13 |
# Dont Add, Dont Miss: 事前選択されたテキストスパンの効果的なコンテンツ保存 Dont Add, dont Miss: Effective Content Preserving Generation from Pre-Selected Text Spans ( http://arxiv.org/abs/2310.09017v1 ) ライセンス: Link先を確認 | Aviv Slobodkin, Avi Caciularu, Eran Hirsch, Ido Dagan | (参考訳) 最近導入されたCTRタスクは、典型的な要約スタイルのタスクの中でテキスト生成ステップを分離する。
入力テキスト内の事前選択されたコンテンツ("highlights")に対応するコヒーレントテキストを生成するために、モデルに挑戦する。
このフレーミングにより、要約のようなタスクのモジュラリティが向上し、単一のCTRモデルとさまざまなコンテンツ選択設定とモジュールを結合することができる。
しかし、現在信頼性の高いCTRモデルは存在しないが、タスクの既存のベースラインのパフォーマンスは平凡であり、実用性に欠けている。
ここでは、コンテンツ保存制約の不適切な実施と最適銀トレーニングデータという2つの重要な制約に対処する、高品質でオープンソースのCTRモデルを導入することで、このギャップに対処する。
これらの問題に対処するため、RLと推論の両方のトレーニングにおいて、制御された復号戦略によりコンテンツ保存制約を増幅する。
さらに, GPT-4蒸留により銀のトレーニングデータ品質を大幅に改善する。
全体として、蒸留したデータセットとハイライト順守戦略を組み合わせれば、現在のベースラインを最大30ROUGE-Lポイントまで上回り、下流での信頼性の高いCTRモデルを提供する。 The recently introduced Controlled Text Reduction (CTR) task isolates the text generation step within typical summarization-style tasks. It does so by challenging models to generate coherent text conforming to pre-selected content within the input text ("highlights"). This framing enables increased modularity in summarization-like tasks, allowing to couple a single CTR model with various content-selection setups and modules. However, there are currently no reliable CTR models, while the performance of the existing baseline for the task is mediocre, falling short of practical utility. Here, we address this gap by introducing a high-quality, open-source CTR model that tackles two prior key limitations: inadequate enforcement of the content-preservation constraint, and suboptimal silver training data. Addressing these, we amplify the content-preservation constraint in both training, via RL, and inference, via a controlled decoding strategy. Further, we substantially improve the silver training data quality via GPT-4 distillation. Overall, pairing the distilled dataset with the highlight-adherence strategies yields marked gains over the current baseline, of up to 30 ROUGE-L points, providing a reliable CTR model for downstream use. | 翻訳日:2023-10-16 13:22:51 公開日:2023-10-13 |
# パノラマビデオ塩物検出のための時空間二重モード混合流れネットワーク A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video Salient Object Detection ( http://arxiv.org/abs/2310.09016v1 ) ライセンス: Link先を確認 | Xiaolei Chen, Pengcheng Zhang, Zelong Du, Ishfaq Ahmad | (参考訳) パノラマビデオにおける正体検出(SOD)は、まだ初期の探査段階にある。
2次元ビデオSOD法のパノラマビデオにおける有能な物体の検出への間接的応用には、検出精度の低下、モデル複雑性の増大、一般化性能の低下など、多くの未解決課題がある。
これらのハードルを克服するために, 層間アテンション(ila)モジュール, 層間ウエイト(ilw)モジュール, バイモーダルアテンション(bma)モジュールを設計した。
これらのモジュールをベースとして,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
第1に、iraモジュールは、パノラマ映像の連続フレームの隣接レベル特徴間の注目度を算出し、空間フローから突出した物体特徴を抽出する精度を向上させる。
そして、ILWモジュールは、各レベルの特徴に含まれる健全なオブジェクト情報を定量化し、混合流れにおける各レベルの特徴の融合効率を向上させる。
最後に、BMAモジュールはSTDMMF-Netの検出精度を向上させる。
多くの主観的および客観的な実験結果から,提案手法は最先端(SOTA)法よりも優れた検出精度を示すことが示された。
さらに,提案手法の総合的な性能は,モデル推論,テスト時間,複雑性,一般化性能に必要なメモリの点で優れている。 Salient object detection (SOD) in panoramic video is still in the initial exploration stage. The indirect application of 2D video SOD method to the detection of salient objects in panoramic video has many unmet challenges, such as low detection accuracy, high model complexity, and poor generalization performance. To overcome these hurdles, we design an Inter-Layer Attention (ILA) module, an Inter-Layer weight (ILW) module, and a Bi-Modal Attention (BMA) module. Based on these modules, we propose a Spatial-Temporal Dual-Mode Mixed Flow Network (STDMMF-Net) that exploits the spatial flow of panoramic video and the corresponding optical flow for SOD. First, the ILA module calculates the attention between adjacent level features of consecutive frames of panoramic video to improve the accuracy of extracting salient object features from the spatial flow. Then, the ILW module quantifies the salient object information contained in the features of each level to improve the fusion efficiency of the features of each level in the mixed flow. Finally, the BMA module improves the detection accuracy of STDMMF-Net. A large number of subjective and objective experimental results testify that the proposed method demonstrates better detection accuracy than the state-of-the-art (SOTA) methods. Moreover, the comprehensive performance of the proposed method is better in terms of memory required for model inference, testing time, complexity, and generalization performance. | 翻訳日:2023-10-16 13:22:29 公開日:2023-10-13 |
# 新しい量子デコーダによる誤差指数の低境界 Lower Bounds on Error Exponents via a New Quantum Decoder ( http://arxiv.org/abs/2310.09014v1 ) ライセンス: Link先を確認 | Salman Beigi and Marco Tomamichel | (参考訳) 我々は、かなり良い測定の変種に基づく新しい量子デコーダを導入するが、代替行列商によって定義される。
我々は、このデコーダを用いて、古典量子および絡み合い支援チャネル符号化問題に対する一発的および漸近的レジームにおける誤差指数の新たな下界を示す。
我々の境界は(ワンショット境界で)測定され、(漸近境界で)チャンネル r\'enyi が1/2から1の順序で相互情報を挟んで表現される。
我々の結果は、いくつかの既定の一般インスタンスの境界値に匹敵するものではないが、基礎となるチャネルが古典的な場合、(キャパシティに近い速度で)厳密である。 We introduce a new quantum decoder based on a variant of the pretty good measurement, but defined via an alternative matrix quotient. We use this decoder to show new lower bounds on the error exponent both in the one-shot and asymptotic regimes for the classical-quantum and the entanglement-assisted channel coding problem. Our bounds are expressed in terms of measured (for the one-shot bounds) and sandwiched (for the asymptotic bounds) channel R\'enyi mutual information of order between 1/2 and 1. Our results are not comparable with some previously established bounds for general instances, yet they are tight (for rates close to capacity) when the underlying channel is classical. | 翻訳日:2023-10-16 13:22:05 公開日:2023-10-13 |
# 表現符号化によるFew-Shot故障診断のためのメタラーニング Federated Meta-Learning for Few-Shot Fault Diagnosis with Representation Encoding ( http://arxiv.org/abs/2310.09002v1 ) ライセンス: Link先を確認 | Jixuan Cui, Jun Li, Zhen Mei, Kang Wei, Sha Wei, Ming Ding, Wen Chen, Song Guo | (参考訳) 深層学習に基づく障害診断(deep learning-based fault diagnosis, fd)のアプローチでは、さまざまなエンティティにまたがって配置されているため、大量のトレーニングデータが必要になる。
フェデレーション学習(fl)は、複数のクライアントがデータプライバシが保証された共有モデルを協調的にトレーニングすることを可能にする。
しかし、クライアント間のドメインの相違とデータ不足は、グローバルFLモデルの性能を悪化させた。
これらの課題に対処するために,数ショットFDのための表現符号化に基づくフェデレーションメタラーニング(REFML)という新しいフレームワークを提案する。
まず,表現エンコーディングとメタラーニングに基づく新しい学習戦略を開発した。
トレーニングクライアント間の内在的な異質性を活用し、目に見えない作業条件や機器タイプに対する分散的一般化の利点を効果的に活用する。
さらに,局所トレーニングの初期化として,局所モデルと大域モデルの最適組み合わせを計算する適応補間法を提案する。
これにより、ドメインの不一致による悪影響を軽減するために、ローカル情報をさらに活用することができる。
その結果、トレーニングデータに制限のある未確認作業条件や機器タイプに対して高い診断精度が得られる。
FedProxのような最先端の手法と比較して、提案されたREFMLフレームワークは、同じ機器の未確認作業条件でそれぞれテストすると2.17%-6.50%、全く見えない機器でテストすると13.44%-18.33%の精度を達成している。 Deep learning-based fault diagnosis (FD) approaches require a large amount of training data, which are difficult to obtain since they are located across different entities. Federated learning (FL) enables multiple clients to collaboratively train a shared model with data privacy guaranteed. However, the domain discrepancy and data scarcity problems among clients deteriorate the performance of the global FL model. To tackle these issues, we propose a novel framework called representation encoding-based federated meta-learning (REFML) for few-shot FD. First, a novel training strategy based on representation encoding and meta-learning is developed. It harnesses the inherent heterogeneity among training clients, effectively transforming it into an advantage for out-of-distribution generalization on unseen working conditions or equipment types. Additionally, an adaptive interpolation method that calculates the optimal combination of local and global models as the initialization of local training is proposed. This helps to further utilize local information to mitigate the negative effects of domain discrepancy. As a result, high diagnostic accuracy can be achieved on unseen working conditions or equipment types with limited training data. Compared with the state-of-the-art methods, such as FedProx, the proposed REFML framework achieves an increase in accuracy by 2.17%-6.50% when tested on unseen working conditions of the same equipment type and 13.44%-18.33% when tested on totally unseen equipment types, respectively. | 翻訳日:2023-10-16 13:21:49 公開日:2023-10-13 |
# オンライン環境におけるプロセス結果予測の安定性の測定 Measuring the Stability of Process Outcome Predictions in Online Settings ( http://arxiv.org/abs/2310.09000v1 ) ライセンス: Link先を確認 | Suhwan Lee, Marco Comuzzi, Xixi Lu, Hajo A. Reijers | (参考訳) 予測プロセス監視は、履歴イベントデータを使用してプロセスインスタンスの将来進捗を予測することを目的としている。
タイムリーな介入を可能にするために、予測プロセス監視がオンライン環境にますます適用されるにつれて、基盤となるモデルの性能を評価することは、時間の経過とともに一貫性と信頼性を確保する上で重要である。
これは、誤った予測が重大な結果をもたらす可能性のあるリスクの高いビジネスシナリオにおいて特に重要である。
しかしながら、予測モデルは、通常、単一の集約値または時系列の可視化を使用して評価されるため、その性能、特に時間とともに安定性を評価するのが困難である。
本稿では,オンライン予測プロセス監視のためのモデルの安定性を評価するための評価フレームワークを提案する。
このフレームワークは、4つのパフォーマンスメタ尺度を導入している。性能低下の頻度、その大きさ、回復率、パフォーマンスのボラティリティである。
このフレームワークを検証するために、2つの人工ログと2つの実世界のイベントログに適用しました。
その結果,これらのメタ測定は,異なるリスクテイクシナリオに対する予測モデルの比較と選択を容易にすることがわかった。
このような洞察は、動的なビジネス環境における意思決定を強化するために特に価値があります。 Predictive Process Monitoring aims to forecast the future progress of process instances using historical event data. As predictive process monitoring is increasingly applied in online settings to enable timely interventions, evaluating the performance of the underlying models becomes crucial for ensuring their consistency and reliability over time. This is especially important in high risk business scenarios where incorrect predictions may have severe consequences. However, predictive models are currently usually evaluated using a single, aggregated value or a time-series visualization, which makes it challenging to assess their performance and, specifically, their stability over time. This paper proposes an evaluation framework for assessing the stability of models for online predictive process monitoring. The framework introduces four performance meta-measures: the frequency of significant performance drops, the magnitude of such drops, the recovery rate, and the volatility of performance. To validate this framework, we applied it to two artificial and two real-world event logs. The results demonstrate that these meta-measures facilitate the comparison and selection of predictive models for different risk-taking scenarios. Such insights are of particular value to enhance decision-making in dynamic business environments. | 翻訳日:2023-10-16 13:21:23 公開日:2023-10-13 |
# CodeChain: 代表サブモジュールとの自己修正によるモジュールコード生成を目指す CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules ( http://arxiv.org/abs/2310.08992v1 ) ライセンス: Link先を確認 | Hung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty | (参考訳) LLM(Large Language Models)は、HumanEvalやMBPPベンチマークのような単純なプログラミングタスクを解くのに、すでに非常に熟練している。
しかし、より複雑で競争的なプログラミングタスクの解決は、これらのモデルにとって依然として非常に難しい - おそらくは、論理的なサブタスクやサブモジュールに分解する代わりに、モノリシックなコードブロックとしてソリューションを生成する傾向があるからだ。
一方、経験豊富なプログラマは、しばしば以前開発されたモジュールを再利用して、複雑なタスクを解決するための抽象的なモジュール化されたコードを書く。
このギャップに対処するために,我々は,自己リビジョンのチェーンを通じてモジュール化されたコード生成を導出する,新しい推論フレームワークであるcodechainを提案する。
具体的には、CodeChainはまずLLMに、チェーン・オブ・ソート・プロンプトを通じてモジュール化されたコードを生成するように指示する。
次に、2つのステップを繰り返すことによって、自己再定義の連鎖を適用する。
1)生成されたサブモジュールを抽出してクラスタ化し、クラスタ代表をより汎用的で再利用可能な実装として選択し、
2)これら選択されたモジュール実装で元のチェーン・オブ・マインド・プロンプトを補強し、llmに新しいモジュール化ソリューションを再生成するよう指示する。
我々は、LLMが以前開発され、検証されたサブモジュールの再利用を自然に促すことで、CodeChainは、生成したソリューションのモジュラリティと正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を達成できることがわかった。
これはOpenAI LLMとWizardCoderのようなオープンソースLLMの両方で有効であることが示されている。
また,CodeChainの成功を支える有用な洞察を提供するために,クラスタ数,モデルサイズ,プログラム品質など,さまざまな方法による包括的なアブレーション研究も行っています。 Large Language Models (LLMs) have already become quite proficient at solving simpler programming tasks like those in HumanEval or MBPP benchmarks. However, solving more complex and competitive programming tasks is still quite challenging for these models - possibly due to their tendency to generate solutions as monolithic code blocks instead of decomposing them into logical sub-tasks and sub-modules. On the other hand, experienced programmers instinctively write modularized code with abstraction for solving complex tasks, often reusing previously developed modules. To address this gap, we propose CodeChain, a novel framework for inference that elicits modularized code generation through a chain of self-revisions, each being guided by some representative sub-modules generated in previous iterations. Concretely, CodeChain first instructs the LLM to generate modularized codes through chain-of-thought prompting. Then it applies a chain of self-revisions by iterating the two steps: 1) extracting and clustering the generated sub-modules and selecting the cluster representatives as the more generic and re-usable implementations, and 2) augmenting the original chain-of-thought prompt with these selected module-implementations and instructing the LLM to re-generate new modularized solutions. We find that by naturally encouraging the LLM to reuse the previously developed and verified sub-modules, CodeChain can significantly boost both modularity as well as correctness of the generated solutions, achieving relative pass@1 improvements of 35% on APPS and 76% on CodeContests. It is shown to be effective on both OpenAI LLMs as well as open-sourced LLMs like WizardCoder. We also conduct comprehensive ablation studies with different methods of prompting, number of clusters, model sizes, program qualities, etc., to provide useful insights that underpin CodeChain's success. | 翻訳日:2023-10-16 13:21:05 公開日:2023-10-13 |
# 分子系における非線形オプトビブロニクス Nonlinear opto-vibronics in molecular systems ( http://arxiv.org/abs/2310.09108v1 ) ライセンス: Link先を確認 | Q. Zhang, M. Asjad, M. Reitz, C. Sommer, B. Gurlek and C. Genes | (参考訳) 古典的または量子的光場によって駆動される分子系におけるオプトビブロニック相互作用を解析的に取り組んだ。
特に、2つの関連する電子準位を持つ分子の単純なモデルについて検討し、核間座標に沿ったミニマの位置と様々な曲率の異なる潜在的ランドスケープを特徴とする。
このような系は電子-電子相互作用を示し、振動変位の線形項と二次項から構成される。
このような非線形分子系の放射・吸収スペクトルを記述するために,条件変位とスクイーズ作用素の組み合わせを用いて量子ランジュバン方程式に基づく解析式を提案する。
さらに,キャビティ-分子系の伝達特性に対する二次相互作用のインプリントを,キャビティ量子力学の集合強結合状態において検討した。 We analytically tackle opto-vibronic interactions in molecular systems driven by either classical or quantum light fields. In particular, we examine a simple model of molecules with two relevant electronic levels, characterized by potential landscapes with different positions of minima along the internuclear coordinate and of varying curvatures. Such systems exhibit an electron-vibron interaction, which can be comprised of linear and quadratic terms in the vibrational displacement. By employing a combination of conditional displacement and squeezing operators, we present analytical expressions based on a quantum Langevin equations approach, to describe the emission and absorption spectra of such nonlinear molecular systems. Furthermore, we examine the imprint of the quadratic interactions onto the transmission properties of a cavity-molecule system within the collective strong coupling regime of cavity quantum electrodynamics. | 翻訳日:2023-10-16 13:11:57 公開日:2023-10-13 |
# スイスドイツ語音声翻訳のための方言変換 Dialect Transfer for Swiss German Speech Translation ( http://arxiv.org/abs/2310.09088v1 ) ライセンス: Link先を確認 | Claudio Paonessa, Yanick Schraner, Jan Deriu, Manuela H\"urlimann, Manfred Vogel, Mark Cieliebak | (参考訳) 本稿では,スイスドイツ語の言語翻訳システム構築における課題について,特に方言の多様性の影響と,スイスドイツ語と標準ドイツ語の違いに着目して検討する。
スイスドイツ語は公式な表記体系を持たない言語であり、多種多様な方言で構成されており、話者数は500万人程度である。
この研究は、スイスドイツ語の音声翻訳モデルの訓練中に方言の含意と排除が特定の方言のパフォーマンスにどう影響するか、そしてスイスドイツ語と標準ドイツ語の違いがシステムのパフォーマンスにどのように影響するかという2つの主要な研究課題によって導かれる。
方言の多様性と言語的差異は、経験的調査から得られた言語的仮説に沿ったスイスドイツ語の翻訳に重大な課題をもたらす。 This paper investigates the challenges in building Swiss German speech translation systems, specifically focusing on the impact of dialect diversity and differences between Swiss German and Standard German. Swiss German is a spoken language with no formal writing system, it comprises many diverse dialects and is a low-resource language with only around 5 million speakers. The study is guided by two key research questions: how does the inclusion and exclusion of dialects during the training of speech translation models for Swiss German impact the performance on specific dialects, and how do the differences between Swiss German and Standard German impact the performance of the systems? We show that dialect diversity and linguistic differences pose significant challenges to Swiss German speech translation, which is in line with linguistic hypotheses derived from empirical investigations. | 翻訳日:2023-10-16 13:11:45 公開日:2023-10-13 |
# 配車サービスのオンラインロケーションとマッチング:モデルに基づくモジュラーアプローチ Online Relocating and Matching of Ride-Hailing Services: A Model-Based Modular Approach ( http://arxiv.org/abs/2310.09071v1 ) ライセンス: Link先を確認 | Chang Gao, Xi Lin, Fang He, Xindi Tang | (参考訳) 本研究は、配車プラットフォームにおける注文マッチングと車両の移動を動的に最適化する革新的なモデルベースモジュラーアプローチ(MMA)を提案する。
MMAは2層構造とモジュラー構造を用いる。
上層層は、システム内の車両の流れの空間移動パターンを決定し、現在および将来のステージの総収益を最大化する。
上層によって提供される誘導により、下層は高速な車両間マッチングと車両の移動を行う。
MMAは解釈可能で、カスタマイズされた多項式時間アルゴリズムを備えており、オンラインの注文マッチングおよび車両移動アルゴリズムとして、数千台の車両をスケールすることができる。
提案手法はスタイライゼーションネットワークにおいてグローバルに最適であることが理論的に証明できるが,toy network と real dataset を用いた数値実験では,mma がバッチマッチング法や強化学習法に比べて優れた体系的性能を達成できることが示されている。
さらに、そのモジュール的で軽量なモデリング構造により、比較的低い計算コストを維持しながら、需要変動に対する高い堅牢性を実現することができる。 This study proposes an innovative model-based modular approach (MMA) to dynamically optimize order matching and vehicle relocation in a ride-hailing platform. MMA utilizes a two-layer and modular modeling structure. The upper layer determines the spatial transfer patterns of vehicle flow within the system to maximize the total revenue of the current and future stages. With the guidance provided by the upper layer, the lower layer performs rapid vehicle-to-order matching and vehicle relocation. MMA is interpretable, and equipped with the customized and polynomial-time algorithm, which, as an online order-matching and vehicle-relocation algorithm, can scale past thousands of vehicles. We theoretically prove that the proposed algorithm can achieve the global optimum in stylized networks, while the numerical experiments based on both the toy network and realistic dataset demonstrate that MMA is capable of achieving superior systematic performance compared to batch matching and reinforcement-learning based methods. Moreover, its modular and lightweight modeling structure further enables it to achieve a high level of robustness against demand variation while maintaining a relatively low computational cost. | 翻訳日:2023-10-16 13:11:30 公開日:2023-10-13 |
# ImageManip: Affordance-guided Next View Selectionによるイメージベースロボットマニピュレーション ImageManip: Image-based Robotic Manipulation with Affordance-guided Next View Selection ( http://arxiv.org/abs/2310.09069v1 ) ライセンス: Link先を確認 | Xiaoqi Li, Yanzi Wang, Yan Shen, Ponomarenko Iaroslav, Haoran Lu, Qianxu Wang, Boshi An, Jiaming Liu, Hao Dong | (参考訳) 未来のホームアシスタントロボットの領域では、ロボットが環境と対話できるようにするために3次元関節オブジェクト操作が不可欠である。
既存の研究の多くは、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
しかし、このアプローチは、データのばらつきとポイントクラウドデータ取得に伴う大幅なコストによる課題に直面するため、実用性を制限することができる。
対照的に、RGB画像はコスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
これらの限界を克服するために,我々は新しい画像ベースロボットマニピュレーションフレームワークを提案する。
このフレームワークは、対象オブジェクトの複数の視点をキャプチャし、その形状を補完するために深度情報を推論するように設計されている。
当初、システムは対象物の全体像を捉えるために、目玉RGBカメラを使用していた。
初期深度マップと粗い余裕マップを予測する。
代価マップはオブジェクトのアクション可能な領域を示し、後続の視点を選択するための制約として機能する。
グローバル・ビジュアル・プレファレンスに基づき, 潜在操作成功領域の詳細な観察に最適な次の視点を適応的に同定する。
我々は幾何学的整合性を利用してビューを融合し、より精巧な深度マップとロボット操作決定のためのより正確な可測マップを得る。
点雲やRGB画像を入力として利用する先行研究と比較することにより,本手法の有効性と実用性を示す。
プロジェクトwebページ(https://sites.google.com/view/imagemanip)では、実世界の実験が、実用的なデプロイ方法の可能性をさらに強調しています。 In the realm of future home-assistant robots, 3D articulated object manipulation is essential for enabling robots to interact with their environment. Many existing studies make use of 3D point clouds as the primary input for manipulation policies. However, this approach encounters challenges due to data sparsity and the significant cost associated with acquiring point cloud data, which can limit its practicality. In contrast, RGB images offer high-resolution observations using cost effective devices but lack spatial 3D geometric information. To overcome these limitations, we present a novel image-based robotic manipulation framework. This framework is designed to capture multiple perspectives of the target object and infer depth information to complement its geometry. Initially, the system employs an eye-on-hand RGB camera to capture an overall view of the target object. It predicts the initial depth map and a coarse affordance map. The affordance map indicates actionable areas on the object and serves as a constraint for selecting subsequent viewpoints. Based on the global visual prior, we adaptively identify the optimal next viewpoint for a detailed observation of the potential manipulation success area. We leverage geometric consistency to fuse the views, resulting in a refined depth map and a more precise affordance map for robot manipulation decisions. By comparing with prior works that adopt point clouds or RGB images as inputs, we demonstrate the effectiveness and practicality of our method. In the project webpage (https://sites.google.com/view/imagemanip), real world experiments further highlight the potential of our method for practical deployment. | 翻訳日:2023-10-16 13:11:10 公開日:2023-10-13 |
# pose-format: 閲覧、拡張、処理のためのライブラリ。
ファイルのポーズ pose-format: Library for Viewing, Augmenting, and Handling .pose Files ( http://arxiv.org/abs/2310.09066v1 ) ライセンス: Link先を確認 | Amit Moryossef, Mathias M\"uller, Rebecka Fahrni | (参考訳) ポーズデータの管理と分析は複雑なタスクであり、多様なファイル構造やデータ型を扱うことから、正規化や拡張のような効果的なデータ操作を容易にすることまで課題がある。
本稿では,これらの課題に対処するための包括的なツールキットである \texttt{pose-format} を提案する。
ライブラリには、さまざまな種類のポーズデータをカプセル化し、複数の個人と無期限の時間枠を収容する特殊なファイルフォーマットが含まれており、画像データとビデオデータの両方に有用である。
さらに、NumPy、PyTorch、TensorFlowといった一般的な数値ライブラリとシームレスに統合することで、堅牢な機械学習アプリケーションを可能にする。
ベンチマークを通じて、我々の \texttt{。
pose} ファイルフォーマットはopenposeのような一般的なフォーマットに対して非常に優れたパフォーマンスを提供します。
さらに、このライブラリには、PythonとBrowser環境の両方でデータ正規化、拡張、使いやすく視覚化する機能が含まれている。
texttt{pose-format}はワンストップソリューションとして登場し、ポーズデータ管理と分析の複雑さを合理化する。 Managing and analyzing pose data is a complex task, with challenges ranging from handling diverse file structures and data types to facilitating effective data manipulations such as normalization and augmentation. This paper presents \texttt{pose-format}, a comprehensive toolkit designed to address these challenges by providing a unified, flexible, and easy-to-use interface. The library includes a specialized file format that encapsulates various types of pose data, accommodating multiple individuals and an indefinite number of time frames, thus proving its utility for both image and video data. Furthermore, it offers seamless integration with popular numerical libraries such as NumPy, PyTorch, and TensorFlow, thereby enabling robust machine-learning applications. Through benchmarking, we demonstrate that our \texttt{.pose} file format offers vastly superior performance against prevalent formats like OpenPose, with added advantages like self-contained pose specification. Additionally, the library includes features for data normalization, augmentation, and easy-to-use visualization capabilities, both in Python and Browser environments. \texttt{pose-format} emerges as a one-stop solution, streamlining the complexities of pose data management and analysis. | 翻訳日:2023-10-16 13:10:46 公開日:2023-10-13 |
# datt:クワッドローター制御のための深い適応軌道追跡 DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control ( http://arxiv.org/abs/2310.09053v1 ) ライセンス: Link先を確認 | Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots | (参考訳) 四元数に対する精密な任意の軌道追跡は、未知の非線形ダイナミクス、軌道不実現性、アクティベーション限界のために困難である。
これらの課題に対処するために,実世界の大きな乱れの存在下で,任意の,潜在的に不可能な軌跡を正確に追跡する学習ベースのアプローチであるDeep Adaptive Trajectory Tracking (DATT)を提案する。
DATTは、強化学習を用いたシミュレーションで訓練された新しいフィードフォワードフィードバック適応制御構造に基づいている。
実際のハードウェアにデプロイする際、DATTはクローズドループにおけるL1適応制御を用いた外乱推定器で拡張される。
DATTは、ベースラインが完全に故障する挑戦的なシナリオを含む非定常風場において、実行不可能なスムーズな軌道と不可能な軌道の両方に対して、競争適応性のある非線形およびモデル予測コントローラを著しく上回っている。
さらに、dattは、適応非線形モデル予測制御ベースラインの1/4未満の3.2ms未満の推論時間で効率的にオンライン実行することができる。 Precise arbitrary trajectory tracking for quadrotors is challenging due to unknown nonlinear dynamics, trajectory infeasibility, and actuation limits. To tackle these challenges, we present Deep Adaptive Trajectory Tracking (DATT), a learning-based approach that can precisely track arbitrary, potentially infeasible trajectories in the presence of large disturbances in the real world. DATT builds on a novel feedforward-feedback-adaptive control structure trained in simulation using reinforcement learning. When deployed on real hardware, DATT is augmented with a disturbance estimator using L1 adaptive control in closed-loop, without any fine-tuning. DATT significantly outperforms competitive adaptive nonlinear and model predictive controllers for both feasible smooth and infeasible trajectories in unsteady wind fields, including challenging scenarios where baselines completely fail. Moreover, DATT can efficiently run online with an inference time less than 3.2 ms, less than 1/4 of the adaptive nonlinear model predictive control baseline | 翻訳日:2023-10-16 13:10:24 公開日:2023-10-13 |
# SAI: コミュニケーションネットワークにおけるシステム人工知能によるAIタスクの解決 SAI: Solving AI Tasks with Systematic Artificial Intelligence in Communication Network ( http://arxiv.org/abs/2310.09049v1 ) ライセンス: Link先を確認 | Lei Yao, Yong Zhang, Zilong Yan and Jialu Tian | (参考訳) 人工知能の急速な発展において、複雑なAIタスクの解決は、インテリジェントなモバイルネットワークにおいて重要な技術である。
インテリジェントなモバイルネットワークにおけるAIモデルの優れたパフォーマンスにもかかわらず、複雑なAIタスクを処理できない。
この課題に対処するために,我々は,大規模言語モデル(LLM)とJSON形式の意図に基づく入力を活用して,AIタスクを解決するためのフレームワークであるSAI(Systematic Artificial Intelligence)を提案する。
具体的には、まず、多言語モデル(LLM)とJSON形式のインテントベースのインプットを同時に統合して、異なるユーザの多様なインテント要件を満たすマルチインプットコンポーネントを設計する。
さらに,モデル合成のための異なるモジュール間をペアでマッチングするモデルカードを用いたモデルカードに基づくモデルライブラリモジュールを提案する。
モデルカードには対応するモデルの名前と必要なパフォーマンス指標が含まれている。
そして、ユーザネットワークの要求を受信すると、複数の選択されたモデルの組み合わせに対して各サブタスクを実行し、実行結果とLCMフィードバックに基づいて出力を提供する。
LLMの言語能力とモデルライブラリの豊富なAIモデルを活用することで、SAIは、通信ネットワーク内の多数の複雑なAIタスクを完了し、ネットワーク最適化、リソース割り当て、その他の困難なタスクにおいて印象的な結果を達成することができる。 In the rapid development of artificial intelligence, solving complex AI tasks is a crucial technology in intelligent mobile networks. Despite the good performance of specialized AI models in intelligent mobile networks, they are unable to handle complicated AI tasks. To address this challenge, we propose Systematic Artificial Intelligence (SAI), which is a framework designed to solve AI tasks by leveraging Large Language Models (LLMs) and JSON-format intent-based input to connect self-designed model library and database. Specifically, we first design a multi-input component, which simultaneously integrates Large Language Models (LLMs) and JSON-format intent-based inputs to fulfill the diverse intent requirements of different users. In addition, we introduce a model library module based on model cards which employ model cards to pairwise match between different modules for model composition. Model cards contain the corresponding model's name and the required performance metrics. Then when receiving user network requirements, we execute each subtask for multiple selected model combinations and provide output based on the execution results and LLM feedback. By leveraging the language capabilities of LLMs and the abundant AI models in the model library, SAI can complete numerous complex AI tasks in the communication network, achieving impressive results in network optimization, resource allocation, and other challenging tasks. | 翻訳日:2023-10-16 13:10:04 公開日:2023-10-13 |
# 量子テクスチュアリティとベル非古典性:ランダムな2ビットシステムに関する研究 Insights into Quantum Contextuality and Bell Nonclassicality: A Study on Random Pure Two-Qubit Systems ( http://arxiv.org/abs/2310.09047v1 ) ライセンス: Link先を確認 | Giovanni Scala, and Antonio Mandarino | (参考訳) 2量子ビット純粋状態のアンサンブルに対するkochen-specker量子コンテキスト性とbell-nonclassicalityの関係について検討する。
我々は、与えられた量子状態上の非文脈性不等式が、考慮された状態のベル非古典性に反することを示す比較分析を示す。
特に、次元$d=4$のヒルベルト空間における系の量子的文脈性と非局所性を実験的に検証可能な適切な不等式を用いる。
文脈性は同じ粒子の異なる自由度で評価できるが、局所現実主義の違反は空間的分離を必要とする。 We explore the relationship between Kochen-Specker quantum contextuality and Bell-nonclassicality for ensembles of two-qubit pure states. We present a comparative analysis showing that the violation of a noncontextuality inequality on a given quantum state reverberates on the Bell-nonclassicality of the considered state. In particular, we use suitable inequalities that are experimentally testable to detect quantum contextuality and nonlocality for systems in a Hilbert space of dimension $d=4$. While contextuality can be assessed on different degrees of freedom of the same particle, the violation of local realism requires parties spatially separated. | 翻訳日:2023-10-16 13:09:40 公開日:2023-10-13 |
# KCTS:Token-Level Hallucination Detectionを用いた知識制約付き木探索デコード KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection ( http://arxiv.org/abs/2310.09044v1 ) ライセンス: Link先を確認 | Sehyun Choi, Tianqing Fang, Zhaowei Wang, Yangqiu Song | (参考訳) 大規模言語モデル (LLM) は、人間レベルの自然言語生成能力を示す。
しかし、誤情報を生成する可能性(しばしば幻覚問題と呼ばれる)は、その展開に重大なリスクをもたらす。
この問題に対処する一般的なアプローチは、関連する知識を取得し、そのインプットで知識とllmを微調整することです。
残念なことに、この方法は高いトレーニングコストを発生させ、マルチタスクモデルの破滅的な忘れる可能性がある。
これらの制限を克服するため,KCTS (Knowledge-Constrained Tree Search) と呼ばれる知識制約付きデコーディング手法を提案する。
また,シーケンシャルレベルの知識分類器をトークンレベルのガイダンスに適用するために,RIPA(Reward Inflection Point Approximation)と呼ばれる新しいトークンレベルの幻覚検出手法を提案する。
自然言語生成における幻覚を効果的に低減できるプラグアンドプレイ型モデル非依存復号法として,KCTSの強みを実証した。 Large Language Models (LLMs) have demonstrated remarkable human-level natural language generation capabilities. However, their potential to generate misinformation, often called the hallucination problem, poses a significant risk to their deployment. A common approach to address this issue is to retrieve relevant knowledge and fine-tune the LLM with the knowledge in its input. Unfortunately, this method incurs high training costs and may cause catastrophic forgetting for multi-tasking models. To overcome these limitations, we propose a knowledge-constrained decoding method called KCTS (Knowledge-Constrained Tree Search), which guides a frozen LM to generate text aligned with the reference knowledge at each decoding step using a knowledge classifier score and MCTS (Monte-Carlo Tree Search). To adapt the sequence-level knowledge classifier to token-level guidance, we also propose a novel token-level hallucination detection method called RIPA (Reward Inflection Point Approximation). Our empirical results on knowledge-grounded dialogue and abstractive summarization demonstrate the strength of KCTS as a plug-and-play, model-agnostic decoding method that can effectively reduce hallucinations in natural language generation. | 翻訳日:2023-10-16 13:09:32 公開日:2023-10-13 |
# エンドユーザーフレキシビリティを考慮した深部強化学習による電気自動車充電の最適スケジューリング Optimal Scheduling of Electric Vehicle Charging with Deep Reinforcement Learning considering End Users Flexibility ( http://arxiv.org/abs/2310.09040v1 ) ライセンス: Link先を確認 | Christoforos Menos-Aikateriniadis, Stavros Sykiotis, Pavlos S. Georgilakis | (参考訳) 今後10年で急激に増加すると予想されている分散型エネルギー資源、特に電気自動車(ev)の急速な成長は、既存の配電網にさらなるストレスを与え、より高いシステムの信頼性と柔軟性の必要性を増すだろう。
不要なネットワーク投資を回避し、流通ネットワーク上の制御性を高めるために、ネットワークオペレータは、金融その他の利益と引き換えにエンドユーザーが消費をシフトするインセンティブを与える需要応答(dr)プログラムを開発する。
人工知能 (AI) の手法は, 開発中のモデルの物理的特性に高い精度, 高い計算速度, 低い依存度などの理由から, 住宅用負荷スケジューリングアプリケーションの研究の最前線にある。
この研究の目的は、深層強化学習、より具体的には深層q-networks (dqn) を用いて、家庭のevコスト削減料金政策を時間的関税制度の下で特定することである。
新しいエンドユーザの柔軟性 潜在的な報酬は、設計したアルゴリズムを訓練し、テストするために太陽光発電を持つ家庭が使われた歴史的なデータ分析から推測される。
提案されているDQN EV充電ポリシーは、エンドユーザーの電気料金の20%以上の節約につながる可能性がある。 The rapid growth of decentralized energy resources and especially Electric Vehicles (EV), that are expected to increase sharply over the next decade, will put further stress on existing power distribution networks, increasing the need for higher system reliability and flexibility. In an attempt to avoid unnecessary network investments and to increase the controllability over distribution networks, network operators develop demand response (DR) programs that incentivize end users to shift their consumption in return for financial or other benefits. Artificial intelligence (AI) methods are in the research forefront for residential load scheduling applications, mainly due to their high accuracy, high computational speed and lower dependence on the physical characteristics of the models under development. The aim of this work is to identify households' EV cost-reducing charging policy under a Time-of-Use tariff scheme, with the use of Deep Reinforcement Learning, and more specifically Deep Q-Networks (DQN). A novel end users flexibility potential reward is inferred from historical data analysis, where households with solar power generation have been used to train and test the designed algorithm. The suggested DQN EV charging policy can lead to more than 20% of savings in end users electricity bills. | 翻訳日:2023-10-16 13:09:08 公開日:2023-10-13 |
# DSG: エンドツーエンドのドキュメント構造生成装置 DSG: An End-to-End Document Structure Generator ( http://arxiv.org/abs/2310.09118v1 ) ライセンス: Link先を確認 | Johannes Rausch and Gentiana Rashiti and Maxim Gusev and Ce Zhang and Stefan Feuerriegel | (参考訳) 産業、研究、公共部門の情報は、文書(pdfファイル、スキャンなど)として広く保存されている。
したがって、下流タスクを有効にするには、文書を構造化階層形式にマッピングするシステムが必要である。
しかし、このタスクの既存のシステムはヒューリスティックによって制限され、エンドツーエンドのトレーニングはできない。
本稿では,文書解析システムである文書構造生成装置(DSG)について紹介する。
DSGはパースのためのディープニューラルネットワークを組み合わせる
(i)書類の実体(図、テキストブロック、ヘッダー等)
(ii)エンティティ間のシーケンスとネスト構造をキャプチャする関係。
ヒューリスティックスに依存している既存のシステムとは異なり、DSGはエンドツーエンドでトレーニングされており、現実世界のアプリケーションに効果的で柔軟です。
さらに、評価のための複雑な文書構造を持つ実世界の雑誌からなる、E-Periodicaと呼ばれる新しい大規模データセットをコントリビュートする。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
我々の知る限り、DSGシステムは階層的な文書解析のための最初のエンドツーエンドのトレーニングシステムである。 Information in industry, research, and the public sector is widely stored as rendered documents (e.g., PDF files, scans). Hence, to enable downstream tasks, systems are needed that map rendered documents onto a structured hierarchical format. However, existing systems for this task are limited by heuristics and are not end-to-end trainable. In this work, we introduce the Document Structure Generator (DSG), a novel system for document parsing that is fully end-to-end trainable. DSG combines a deep neural network for parsing (i) entities in documents (e.g., figures, text blocks, headers, etc.) and (ii) relations that capture the sequence and nested structure between entities. Unlike existing systems that rely on heuristics, our DSG is trained end-to-end, making it effective and flexible for real-world applications. We further contribute a new, large-scale dataset called E-Periodica comprising real-world magazines with complex document structures for evaluation. Our results demonstrate that our DSG outperforms commercial OCR tools and, on top of that, achieves state-of-the-art performance. To the best of our knowledge, our DSG system is the first end-to-end trainable system for hierarchical document parsing. | 翻訳日:2023-10-16 13:03:07 公開日:2023-10-13 |
# コントラスト学習と秩序保存最適輸送を用いたtimetamp教師付きウェアラブルアクティビティセグメンテーションと認識 Timestamp-supervised Wearable-based Activity Segmentation and Recognition with Contrastive Learning and Order-Preserving Optimal Transport ( http://arxiv.org/abs/2310.09114v1 ) ライセンス: Link先を確認 | Songpengcheng Xia, Lei Chu, Ling Pei, Jiarui Yang, Wenxian Yu, Robert C. Qiu | (参考訳) ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、ユビキタスおよびモバイルコンピューティングアプリケーションで利用可能な技術の1つである。
マルチクラスウィンドウの問題に悩まされながら,スライディングウインドウ方式が広く採用されている。
その結果,HARと時系列セグメンテーションを同時に扱うことを目的とした,ディープラーニング手法による共同セグメンテーションと認識に注目が集まっている。
しかしながら、ウェアラブルデータシーケンスの全アクティビティアノテーションを取得することは、リソース集約的あるいは時間を要するが、教師なしの手法ではパフォーマンスが劣る。
これらの課題に対処するために,各アクティビティセグメントに1つの注釈付きサンプルしか必要としない,タイムスタンプによる共同アクティビティセグメンテーションと認識のための新しい手法を提案する。
しかし、スパースアノテーションの限られた情報は認識タスクとセグメンテーションタスクのギャップを悪化させ、サブ最適モデル性能をもたらす。
そのため、プロトタイプはクラスアクティベーションマップによって推定され、よく構造化された埋め込みのためのサンプル-プロトタイプコントラストモジュールを形成する。
さらに,最適輸送理論により,タイムスタンプアノテーション間のラベルなしデータを利用したサンプルレベルの擬似ラベルを生成し,さらなる性能向上を図る。
4つの公開harデータセットに関する包括的な実験は、タイムスタンプ監視でトレーニングされたモデルが最先端の弱い教師付きメソッドよりも優れており、完全に教師付きアプローチと同等のパフォーマンスを達成していることを示している。 Human activity recognition (HAR) with wearables is one of the serviceable technologies in ubiquitous and mobile computing applications. The sliding-window scheme is widely adopted while suffering from the multi-class windows problem. As a result, there is a growing focus on joint segmentation and recognition with deep-learning methods, aiming at simultaneously dealing with HAR and time-series segmentation issues. However, obtaining the full activity annotations of wearable data sequences is resource-intensive or time-consuming, while unsupervised methods yield poor performance. To address these challenges, we propose a novel method for joint activity segmentation and recognition with timestamp supervision, in which only a single annotated sample is needed in each activity segment. However, the limited information of sparse annotations exacerbates the gap between recognition and segmentation tasks, leading to sub-optimal model performance. Therefore, the prototypes are estimated by class-activation maps to form a sample-to-prototype contrast module for well-structured embeddings. Moreover, with the optimal transport theory, our approach generates the sample-level pseudo-labels that take advantage of unlabeled data between timestamp annotations for further performance improvement. Comprehensive experiments on four public HAR datasets demonstrate that our model trained with timestamp supervision is superior to the state-of-the-art weakly-supervised methods and achieves comparable performance to the fully-supervised approaches. | 翻訳日:2023-10-16 13:02:50 公開日:2023-10-13 |
# rayleigh-ritz法によるdirac-coulomb方程式の解法
he様原子の結果 Solution of the Dirac-Coulomb equation using the Rayleigh-Ritz method. Results for He-like atoms ( http://arxiv.org/abs/2310.09111v1 ) ライセンス: Link先を確認 | A. Ba\u{g}c{\i} and P. E. Hoggan | (参考訳) ヘリウム様イオンに対するdirac-coulomb方程式は、スレーター型スピノル軌道を基本とする反復自己整合場法を用いて解かれる。
これらの軌道は、大成分と小成分の結合による運動平衡条件を本質的に満たしている。
1/r_{12}$クーロン相互作用は制約なく処理される。
核電荷が最大で$Z \leq 80$までの原子の総エネルギーに対して、最小基底セットと拡張基底セットの両方を用いて計算を行う。
軌道パラメータの変分最適値はレイリー・リッツ変分原理によって決定される。
ブラウン・ラヴェンホール病に関連する症状は発見されていない。 The Dirac-Coulomb equation for helium-like ions is solved using the iterative self-consistent field method, with Slater-type spinor orbitals as the basis. These orbitals inherently satisfy the kinetic-balance condition due to their coupling for both large- and small-components. The $1/r_{12}$ Coulomb interaction is treated without constraints. Computations are carried out for total energies of atoms with nuclear charges up to $Z \leq 80$ using both minimal and extended basis sets. Variationally optimal values for orbital parameters are determined through the Rayleigh-Ritz variational principle. No manifestations related to the Brown-Ravenhall disease are found. | 翻訳日:2023-10-16 13:02:25 公開日:2023-10-13 |
# glore: 大きな言語モデルの論理的推論を評価する GLoRE: Evaluating Logical Reasoning of Large Language Models ( http://arxiv.org/abs/2310.09107v1 ) ライセンス: Link先を確認 | Hanmeng liu, Zhiyang Teng, Ruoxi Ning, Jian Liu, Qiji Zhou, Yue Zhang | (参考訳) 近年,大規模言語モデル (LLMs) は, GPT-4 や急成長するコミュニティモデルなどの特筆すべき言語理解能力を示す。
しかし、これらのllmの論理的推論能力を評価する試みは少なく、自然言語理解の本質的な側面である。
gloreは,3種類のタスクにまたがる12のデータセットからなる,精細に組み立てられた一般論理推論評価ベンチマークである。
実験結果から,オープンLLMモデルの論理的推論能力は,人間と教師ありの微調整に比べて向上し,ChatGPTとGPT-4は高い論理的推論能力を示し,GPT-4はChatGPTをはるかに上回っていることがわかった。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を高める微調整法を提案する。
今後の研究を促進するためのデータセットと評価プログラムをリリースする。 Recently, large language models (LLMs), including notable models such as GPT-4 and burgeoning community models, have showcased significant general language understanding abilities. However, there has been a scarcity of attempts to assess the logical reasoning capacities of these LLMs, an essential facet of natural language understanding. To encourage further investigation in this area, we introduce GLoRE, a meticulously assembled General Logical Reasoning Evaluation benchmark comprised of 12 datasets that span three different types of tasks. Our experimental results show that compared to the performance of human and supervised fine-tuning, the logical reasoning capabilities of open LLM models necessitate additional improvement; ChatGPT and GPT-4 show a strong capability of logical reasoning, with GPT-4 surpassing ChatGPT by a large margin. We propose a self-consistency probing method to enhance the accuracy of ChatGPT and a fine-tuned method to boost the performance of an open LLM. We release the datasets and evaluation programs to facilitate future research. | 翻訳日:2023-10-16 13:02:16 公開日:2023-10-13 |
# 低線量CTのプライバシー保護 Privacy-Preserving Encrypted Low-Dose CT Denoising ( http://arxiv.org/abs/2310.09101v1 ) ライセンス: Link先を確認 | Ziyuan Yang, Huijie Huangfu, Maosong Ran, Zhiwen Wang, Hui Yu, Yi Zhang | (参考訳) ディープラーニング(DL)は,特に低用量CT(LDCT)デノナイジングにおいて,断層撮影において顕著な進歩を遂げている。
最近のトレンドは、サーバが大量の自己収集したプライベートデータを使って強力なモデルをトレーニングし、chat-gptのようなユーザのためのアプリケーションプログラミングインターフェース(api)を提供する。
モデルリークを避けるために、ユーザは自分のデータをサーバモデルにアップロードする必要があるが、この方法ではプライバシー開示の潜在的なリスク、特に医療データに対する懸念が高まる。
そこで,本論文では,プライバシー保護クラウドサービスを実現するために,サーバにプライベートデータを公開せずにLDCTを直接解読することを提案する。
この目的のために,同型暗号を用いてプライベートLDCTデータを暗号化し,そのデータをプレーンテキストLDCTで訓練したサーバモデルに転送し,さらなる復調を行う。
しかし, 畳み込みや線形変換といった従来の操作では, DLメソッドは暗号化ドメインでは直接利用できないため, 平文領域の基本的な数学的操作を暗号化ドメインの操作に変換する。
さらに,本論文では線形モデルと非線形モデルのための2つの対話型フレームワークについて述べる。
このようにして提案手法は,データプライバシが保護され,サーバモデルがモデル漏洩のリスクを伴わないという2つのメリットを達成できる。
さらに,フレームワークの損失のない性質を検証する理論的証明を提供する。
最後に, 転送内容が十分に保護され, 再構築できないことを示す実験を行った。
論文が受け入れられたら、コードはリリースされます。 Deep learning (DL) has made significant advancements in tomographic imaging, particularly in low-dose computed tomography (LDCT) denoising. A recent trend involves servers training powerful models with large amounts of self-collected private data and providing application programming interfaces (APIs) for users, such as Chat-GPT. To avoid model leakage, users are required to upload their data to the server model, but this way raises public concerns about the potential risk of privacy disclosure, especially for medical data. Hence, to alleviate related concerns, in this paper, we propose to directly denoise LDCT in the encrypted domain to achieve privacy-preserving cloud services without exposing private data to the server. To this end, we employ homomorphic encryption to encrypt private LDCT data, which is then transferred to the server model trained with plaintext LDCT for further denoising. However, since traditional operations, such as convolution and linear transformation, in DL methods cannot be directly used in the encrypted domain, we transform the fundamental mathematic operations in the plaintext domain into the operations in the encrypted domain. In addition, we present two interactive frameworks for linear and nonlinear models in this paper, both of which can achieve lossless operating. In this way, the proposed methods can achieve two merits, the data privacy is well protected and the server model is free from the risk of model leakage. Moreover, we provide theoretical proof to validate the lossless property of our framework. Finally, experiments were conducted to demonstrate that the transferred contents are well protected and cannot be reconstructed. The code will be released once the paper is accepted. | 翻訳日:2023-10-16 13:01:57 公開日:2023-10-13 |
# 視覚トランスフォーマーを用いた高速3次元心臓ctセグメンテーション Faster 3D cardiac CT segmentation with Vision Transformers ( http://arxiv.org/abs/2310.09099v1 ) ライセンス: Link先を確認 | Lee Jollans, Mariana Bustamante, Lilian Henriksson, Anders Persson, Tino Ebbers | (参考訳) 心臓の正確な分節は、パーソナライズされた血流シミュレーションや外科的介入計画に不可欠である。
画像認識の最近の進歩はViT(Vision Transformer)であり、視野を広げてグローバルな画像コンテキストの大部分を包含する。
我々は3次元ボリューム入力にViTを適用した。
総心周期を表す最大20のタイムポイントを特徴とする39例の心電図(CT)量を利用した。
我々のネットワークは改良されたResNet50ブロックとViTブロックを備えており、スキップ接続によるカスケードアップサンプリングを採用している。
モデルの複雑さが増大しているにもかかわらず,trunetと呼ばれるハイブリッドu-netフレームワークは,左室,左心房,左心房追加,上行大動脈,肺静脈の分画を比較検討しながら,残存u-netよりもかなり少ない時間で収束する。
TRUNetは血管の境界セグメンテーションをより正確に提供し、残りのU-Netと比較して心臓全体の解剖学的構造をよりよく捉えている。
パフォーマンスとトレーニング速度の両面で、TRUNetは一般的に使用されているセグメンテーションアーキテクチャであるU-Netを超え、医用画像における3Dセグメンテーションタスクの有望なツールとなった。
TRUNetのコードはgithub.com/ljollans/TRUNetで入手できる。 Accurate segmentation of the heart is essential for personalized blood flow simulations and surgical intervention planning. A recent advancement in image recognition is the Vision Transformer (ViT), which expands the field of view to encompass a greater portion of the global image context. We adapted ViT for three-dimensional volume inputs. Cardiac computed tomography (CT) volumes from 39 patients, featuring up to 20 timepoints representing the complete cardiac cycle, were utilized. Our network incorporates a modified ResNet50 block as well as a ViT block and employs cascade upsampling with skip connections. Despite its increased model complexity, our hybrid Transformer-Residual U-Net framework, termed TRUNet, converges in significantly less time than residual U-Net while providing comparable or superior segmentations of the left ventricle, left atrium, left atrial appendage, ascending aorta, and pulmonary veins. TRUNet offers more precise vessel boundary segmentation and better captures the heart's overall anatomical structure compared to residual U-Net, as confirmed by the absence of extraneous clusters of missegmented voxels. In terms of both performance and training speed, TRUNet exceeded U-Net, a commonly used segmentation architecture, making it a promising tool for 3D semantic segmentation tasks in medical imaging. The code for TRUNet is available at github.com/ljollans/TRUNet. | 翻訳日:2023-10-16 13:01:30 公開日:2023-10-13 |
# iPUNet:Iterative Cross Field Guided Point Cloud Upsampling iPUNet:Iterative Cross Field Guided Point Cloud Upsampling ( http://arxiv.org/abs/2310.09092v1 ) ライセンス: Link先を確認 | Guangshun Wei, Hao Pan, Shaojie Zhuang, Yuanfeng Zhou, Changjian Li | (参考訳) 3Dスキャン装置によって取得される点雲は、しばしばスパース、ノイズ、非均一であり、幾何学的特徴が失われる。
下流アプリケーションにおけるポイントクラウドの使い勝手を向上するため、学習ベースのポイントアップサンプリング手法iPUNetを提案し、任意の比率で高密度かつ均一なポイントを生成し、シャープな特徴を捉える。
特徴認識点を生成するために,点生成をガイドする自己スーパービジョンにより,鋭い幾何学的特徴に対応するクロスフィールドを導入する。
クロスフィールド定義フレームが与えられた場合、各入力点の局所パラメータ化面を学習することで任意の比率アップサンプリングを可能にする。
学習面は、隣接点と2次元接平面座標を入力として消費し、出力点の任意の比をサンプリングできる3dの連続面にマップする。
クロスフィールド誘導アップサンプリング上で入力点の不均一性を解決するために,各イテレーションにおいて,スパース点を所望の連続3次元面に移動させることで,点分布を洗練する反復戦略も導入する。
ほんの数回の反復でスパース点が均等に分布し、それに対応する密度の高いサンプルはより均一で幾何学的特徴を捕えることができる。
オブジェクトやシーンの多様なスキャンの広範な評価を通じて、iPUNetはノイズや不均一に分散された入力を処理し、最先端のクラウドサンプリング手法より優れていることを示す。 Point clouds acquired by 3D scanning devices are often sparse, noisy, and non-uniform, causing a loss of geometric features. To facilitate the usability of point clouds in downstream applications, given such input, we present a learning-based point upsampling method, i.e., iPUNet, which generates dense and uniform points at arbitrary ratios and better captures sharp features. To generate feature-aware points, we introduce cross fields that are aligned to sharp geometric features by self-supervision to guide point generation. Given cross field defined frames, we enable arbitrary ratio upsampling by learning at each input point a local parameterized surface. The learned surface consumes the neighboring points and 2D tangent plane coordinates as input, and maps onto a continuous surface in 3D where arbitrary ratios of output points can be sampled. To solve the non-uniformity of input points, on top of the cross field guided upsampling, we further introduce an iterative strategy that refines the point distribution by moving sparse points onto the desired continuous 3D surface in each iteration. Within only a few iterations, the sparse points are evenly distributed and their corresponding dense samples are more uniform and better capture geometric features. Through extensive evaluations on diverse scans of objects and scenes, we demonstrate that iPUNet is robust to handle noisy and non-uniformly distributed inputs, and outperforms state-of-the-art point cloud upsampling methods. | 翻訳日:2023-10-16 13:01:02 公開日:2023-10-13 |
# 教師なし機械学習とXAIを用いた人的能力を超える規模の史料の洞察豊かな分析 Insightful analysis of historical sources at scales beyond human capabilities using unsupervised Machine Learning and XAI ( http://arxiv.org/abs/2310.09091v1 ) ライセンス: Link先を確認 | Oliver Eberle, Jochen B\"uttner, Hassan El-Hajj, Gr\'egoire Montavon, Klaus-Robert M\"uller, Matteo Valleriani | (参考訳) 史料は豊富である。
しかし、人間の知識がどのように進化し、ダイアハロニカルにも同期的にも広まっていったかは、今のところ非常に選択的に対処できる課題である。
膨大な量の資料は、人間の専門家の数が限られているため、包括的な研究を妨げている。
しかし、現在、大量の歴史資料がデジタル形式で利用可能になっているため、AIによる歴史的分析には有望な機会がある。
本研究では,革新的な機械学習(ml)手法を駆使して,膨大な歴史的コーパスの分析に向けて重要な一歩を踏み出した。
1472年から1650年にかけてヨーロッパの大学で使われた天文学の教科書359冊のデジタル化版である「サクロボスコ・コレクション」における知識の進化を中心に、約76,000ページを収集し、その多くが天文学的計算表を含んでいる。
これらの表のMLに基づく分析は、ヨーロッパの大学で教えられている数学天文学の分野における知識と革新の時空間的進化の重要な側面を明らかにするのに役立つ。 Historical materials are abundant. Yet, piecing together how human knowledge has evolved and spread both diachronically and synchronically remains a challenge that can so far only be very selectively addressed. The vast volume of materials precludes comprehensive studies, given the restricted number of human specialists. However, as large amounts of historical materials are now available in digital form there is a promising opportunity for AI-assisted historical analysis. In this work, we take a pivotal step towards analyzing vast historical corpora by employing innovative machine learning (ML) techniques, enabling in-depth historical insights on a grand scale. Our study centers on the evolution of knowledge within the `Sacrobosco Collection' -- a digitized collection of 359 early modern printed editions of textbooks on astronomy used at European universities between 1472 and 1650 -- roughly 76,000 pages, many of which contain astronomic, computational tables. An ML based analysis of these tables helps to unveil important facets of the spatio-temporal evolution of knowledge and innovation in the field of mathematical astronomy in the period, as taught at European universities. | 翻訳日:2023-10-16 13:00:33 公開日:2023-10-13 |
# Qilin-Med:多段階知識注入医療大言語モデル Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model ( http://arxiv.org/abs/2310.09089v1 ) ライセンス: Link先を確認 | Qichen Ye, Junling Liu, Dading Chong, Peilin Zhou, Yining Hua, Andrew Liu | (参考訳) 大きな言語モデル(LLM)を医療に統合することは潜在的な可能性を示すが、課題に直面している。
医学のような分野のLLMを直接訓練することは資源が豊富であり、時には不可能である。
Supervised Fine-tuning (SFT) に頼っていると、自信過剰な予測が生じ、ドメイン固有の洞察を取り入れない可能性がある。
これらの課題に対処し、ドメイン特化前訓練(dcpt)、sft、dpo(direct preference optimization)を組み合わせた多段階学習手法を提案する。
研究の注目すべき貢献は、3gbの中国医学(chimed)データセットの導入で、医療質問の回答、平易なテキスト、知識グラフ、対話を3つのトレーニング段階に区分した。
パイプラインでトレーニングした医療用LLMであるQilin-Medは、大幅なパフォーマンス向上を実現しています。
CPTとSFTの段階では、CMExamで38.4%と40.0%の精度を達成し、Baichuan-7Bの33.5%を上回った。
DPOフェーズでは、Huatuo-26Mテストセットで、BLEU-1で16.66点、ROUGE1で27.44点、SFTの12.69点、24.21点を上回った。
このことは、医療応用のためのLLMの精製におけるトレーニングアプローチの強みを強調します。 Integrating large language models (LLMs) into healthcare presents potential but faces challenges. Directly pre-training LLMs for domains like medicine is resource-heavy and sometimes unfeasible. Sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain specific insights. Addressing these challenges, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). A notable contribution of our study is the introduction of a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, exhibits significant performance boosts. In the CPT and SFT phases, it achieves 38.4% and 40.0% accuracy on the CMExam, surpassing Baichuan-7B's 33.5%. In the DPO phase, on the Huatuo-26M test set, it scores 16.66 in BLEU-1 and 27.44 in ROUGE1, outperforming the SFT's 12.69 and 24.21. This highlights the strength of our training approach in refining LLMs for medical applications. | 翻訳日:2023-10-16 13:00:12 公開日:2023-10-13 |
# HierarchicalContrast: クロスドメインゼロショットスロット充足のための粗大な相互比較学習フレームワーク HierarchicalContrast: A Coarse-to-Fine Contrastive Learning Framework for Cross-Domain Zero-Shot Slot Filling ( http://arxiv.org/abs/2310.09135v1 ) ライセンス: Link先を確認 | Junwen Zhang and Yin Zhang | (参考訳) タスク指向の対話シナリオでは、アノテートされたデータが利用できない未知のターゲットドメインにおいて、ソースドメイン知識を活用する上で、クロスドメインゼロショットスロットフィリングが重要な役割を果たす。
しかし、既存のゼロショットスロットフィリング手法はターゲット領域での一般化能力が限られており、参照スロット上では効果的な知識伝達しか示さず、未確認スロットでは性能が悪い。
そこで本研究では,ゼロショットスロット充填のための階層型コントラスト学習フレームワーク(hicl)を提案する。
具体的には,ガウス分布埋め込みに基づく粗粒度コントラスト学習を提案し,声道間および声道内分布距離を最適化することにより,発話音間の一般化した深い意味関係を学習する。
これにより、HiCLはトレーニング段階で見えないスロットタイプに一般化する。
さらに,前回のゼロショットスロット充填評価法において,対応するスロットタイプ(つまりスロットタイプ)と絡み合った未検出スロット型の性能を偏りなく別々に評価する,新しい反復ラベルセット意味論推定法を提案する。
4つのデータセットに対する広範な実験実験により、提案手法は現在の最先端ゼロショットスロットフィリング手法と同等あるいはそれ以上の性能を達成することを示した。 In task-oriented dialogue scenarios, cross-domain zero-shot slot filling plays a vital role in leveraging source domain knowledge to learn a model with high generalization ability in unknown target domain where annotated data is unavailable. However, the existing state-of-the-art zero-shot slot filling methods have limited generalization ability in target domain, they only show effective knowledge transfer on seen slots and perform poorly on unseen slots. To alleviate this issue, we present a novel Hierarchical Contrastive Learning Framework (HiCL) for zero-shot slot filling. Specifically, we propose a coarse- to fine-grained contrastive learning based on Gaussian-distributed embedding to learn the generalized deep semantic relations between utterance-tokens, by optimizing inter- and intra-token distribution distance. This encourages HiCL to generalize to the slot types unseen at training phase. Furthermore, we present a new iterative label set semantics inference method to unbiasedly and separately evaluate the performance of unseen slot types which entangled with their counterparts (i.e., seen slot types) in the previous zero-shot slot filling evaluation methods. The extensive empirical experiments on four datasets demonstrate that the proposed method achieves comparable or even better performance than the current state-of-the-art zero-shot slot filling approaches. | 翻訳日:2023-10-16 12:51:52 公開日:2023-10-13 |
# split-and-denoise: ローカルディファレンシャルプライバシによる大規模言語モデル推論の保護 Split-and-Denoise: Protect large language model inference with local differential privacy ( http://arxiv.org/abs/2310.09130v1 ) ライセンス: Link先を確認 | Peihua Mai, Ran Yan, Zhe Huang, Youjia Yang, Yan Pang | (参考訳) 大規模言語モデル(LLM)は、ベクトル空間に隠されたセマンティクスをキャプチャすることで、自然言語理解において強力な能力を示す。
このプロセスは、さまざまな下流タスクに対するテキスト埋め込みの価値を強化し、Embing-as-a-Service(EaaS)ビジネスモデルを育む。
しかし、サーバーへのテキストの直接送信は、プライバシー漏洩の危険性がほとんどない。
この問題を緩和するために、最小計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する革新的なフレームワークであるSplit-N-Denoise(SnD)を紹介します。
これにより、クライアントは、サーバに埋め込みを送信する前にノイズを導入し、その後、下流タスクの摂動された出力埋め込みを受信および復号化することができる。
提案手法は, LLMの推論段階に設計されており, モデルパラメータの変更は不要である。
広範な実験により、SnDは様々なLLMアーキテクチャとさまざまな下流タスク間でのプライバシーとユーティリティのトレードオフを最適化する効果を示した。
結果は、クライアントにローカルプライバシー保護のためのプライバシ保護ソリューションを提供するベースラインと比較して、同じプライバシ予算の下での大幅なパフォーマンス向上を示している。 Large Language Models (LLMs) shows powerful capability in natural language understanding by capturing hidden semantics in vector space. This process enriches the value of the text embeddings for various downstream tasks, thereby fostering the Embedding-as-a-Service (EaaS) business model. However, the direct transmission of text to servers poses a largely unaddressed risk of privacy leakage. To mitigate this issue, we introduce Split-N-Denoise (SnD), an innovative framework that split the model to execute the token embedding layer on the client side at minimal computational cost. This allows the client to introduce noise prior to transmitting the embeddings to the server, and subsequently receive and denoise the perturbed output embeddings for downstream tasks. Our approach is designed for the inference stage of LLMs and requires no modifications to the model parameters. Extensive experiments demonstrate SnD's effectiveness in optimizing the privacy-utility tradeoff across various LLM architectures and diverse downstream tasks. The results reveal a significant performance improvement under the same privacy budget compared to the baseline, offering clients a privacy-preserving solution for local privacy protection. | 翻訳日:2023-10-16 12:51:31 公開日:2023-10-13 |
# 分解可能なモデルと応用との相関と条件分岐の計算 Computing Marginal and Conditional Divergences between Decomposable Models with Applications ( http://arxiv.org/abs/2310.09129v1 ) ライセンス: Link先を確認 | Loong Kuan Lee, Geoffrey I. Webb, Daniel F. Schmidt, Nico Piatkowski | (参考訳) 2つの高次元分布の正確な分岐を計算する能力は、多くのアプリケーションで有用であるが、それを行うのは難解である。
Kullback-Leibler の発散と Hellinger 距離を含む分岐の族である α-β の発散を計算し、2つの分解可能なモデルの結合分布、すなわち、コードマルコフネットワークは、これらのモデルのツリー幅で指数関数的に時間的に行うことができる。
しかし、2つの高次元オブジェクト間の相似性を1つのスカラー値に減らすことは不可能である。
さらに、教師付き学習のようなアプリケーションでは、条件付き分布上の発散がより興味深いかもしれない。
そこで本研究では,2つの分解可能モデルの限界分布と条件分布の正確なα-ベータ発散を計算する手法を提案する。
このような厳密な処理は、これらの分布間の分散を分解する必要があるため、これらのモデルの限界分布と条件分布を分解する必要がある。
その結果、我々はそのような分解を提供し、既存の処理を拡張して、これらの分解間の限界と条件のアルファ-ベータのばらつきを計算する。
次に,まずそれをベンチマーク画像データセットに適用することにより,分布変化の解析に用いる方法を示す。
最後に, 現代の超伝導量子コンピュータにおいて, 誤差を定量化する新しい手法を提案する。
すべての実験のコードは、https://lklee.dev/pub/2023-icdm/codeで利用可能である。 The ability to compute the exact divergence between two high-dimensional distributions is useful in many applications but doing so naively is intractable. Computing the alpha-beta divergence -- a family of divergences that includes the Kullback-Leibler divergence and Hellinger distance -- between the joint distribution of two decomposable models, i.e chordal Markov networks, can be done in time exponential in the treewidth of these models. However, reducing the dissimilarity between two high-dimensional objects to a single scalar value can be uninformative. Furthermore, in applications such as supervised learning, the divergence over a conditional distribution might be of more interest. Therefore, we propose an approach to compute the exact alpha-beta divergence between any marginal or conditional distribution of two decomposable models. Doing so tractably is non-trivial as we need to decompose the divergence between these distributions and therefore, require a decomposition over the marginal and conditional distributions of these models. Consequently, we provide such a decomposition and also extend existing work to compute the marginal and conditional alpha-beta divergence between these decompositions. We then show how our method can be used to analyze distributional changes by first applying it to a benchmark image dataset. Finally, based on our framework, we propose a novel way to quantify the error in contemporary superconducting quantum computers. Code for all experiments is available at: https://lklee.dev/pub/2023-icdm/code | 翻訳日:2023-10-16 12:51:11 公開日:2023-10-13 |
# 射影クラスタリングの一般化境界について On Generalization Bounds for Projective Clustering ( http://arxiv.org/abs/2310.09127v1 ) ライセンス: Link先を確認 | Maria Sofia Bucarelli, Matilde Fjelds{\o} Larsen, Chris Schwiegelshohn, Mads Bech Toftrup | (参考訳) ポイントの集合が与えられると、クラスタリングは、ポイントが割り当てられた中心が可能な限り近いように、$k$クラスタにセットされたポイントの分割を見つけることで構成される。
最も一般的には、センター自体がポイントであり、有名な$k$-median と $k$-means の目的に繋がる。
また、中心を$j$ 次元の部分空間に選び、それが部分空間のクラスタリングを引き起こすこともある。
本稿では,これらの問題に対する学習境界について考察する。
つまり、ある未知の値から独立して引き出された$n$サンプルのセット$P$が与えられたとき、$\mathcal{D}$は、$P$で計算された解が$\mathcal{D}$の最適クラスタリングにどれだけ早く収束するか?
最適に近い結果がいくつかある。
特に、中心に基づく目的に対しては、$\tilde{O}\left(\sqrt{{k}/{n}}\right)$ の収束率を示す。
これは[fefferman, mitter, and narayanan, journal of the mathematical society 2016]と[bartlett, linder, and lugosi, ieee trans. inf. theory 1998]の既知の最適境界とk$-meansで一致し、$k$-medianのような他の重要な目的にも拡張される。
j$-次元部分空間を持つ部分空間クラスタリングに対しては、$\tilde{o}\left(\sqrt{\frac{kj^2}{n}}\right)$という収束率を示す。
これらはこれらの問題に対する最初の証明可能な境界である。
k$-平均を一般化する射影クラスタリングの特定の場合において、$\Omega\left(\sqrt {\frac{kj}{n}}\right)$ の収束速度は必要であり、したがって [Fefferman, Mitter, and Narayanan, Journal of the Mathematical Society 2016] の限界が本質的に最適であることを示す。 Given a set of points, clustering consists of finding a partition of a point set into $k$ clusters such that the center to which a point is assigned is as close as possible. Most commonly, centers are points themselves, which leads to the famous $k$-median and $k$-means objectives. One may also choose centers to be $j$ dimensional subspaces, which gives rise to subspace clustering. In this paper, we consider learning bounds for these problems. That is, given a set of $n$ samples $P$ drawn independently from some unknown, but fixed distribution $\mathcal{D}$, how quickly does a solution computed on $P$ converge to the optimal clustering of $\mathcal{D}$? We give several near optimal results. In particular, For center-based objectives, we show a convergence rate of $\tilde{O}\left(\sqrt{{k}/{n}}\right)$. This matches the known optimal bounds of [Fefferman, Mitter, and Narayanan, Journal of the Mathematical Society 2016] and [Bartlett, Linder, and Lugosi, IEEE Trans. Inf. Theory 1998] for $k$-means and extends it to other important objectives such as $k$-median. For subspace clustering with $j$-dimensional subspaces, we show a convergence rate of $\tilde{O}\left(\sqrt{\frac{kj^2}{n}}\right)$. These are the first provable bounds for most of these problems. For the specific case of projective clustering, which generalizes $k$-means, we show a convergence rate of $\Omega\left(\sqrt{\frac{kj}{n}}\right)$ is necessary, thereby proving that the bounds from [Fefferman, Mitter, and Narayanan, Journal of the Mathematical Society 2016] are essentially optimal. | 翻訳日:2023-10-16 12:50:48 公開日:2023-10-13 |
# 低光生画像用物理誘導ノイズニューラルネットワーク Physics-guided Noise Neural Proxy for Low-light Raw Image Denoising ( http://arxiv.org/abs/2310.09126v1 ) ライセンス: Link先を確認 | Hansen Feng, Lizhi Wang, Yiqi Huang, Yuzhi Wang, Hua Huang | (参考訳) モバイル写真では低照度raw画像のノイズ除去が重要な役割を担っており、学習に基づく手法が主流となっている。
合成データを用いた学習に基づく手法の訓練は、ペア化された実データに対する効率的で実用的な代替手段として現れる。
しかし、合成データの質はノイズモデルの低精度によって本質的に制限され、低照度生画像のノイズ化性能が低下する。
本稿では,物理誘導型ノイズニューラルプロキシ(PNNP)を暗黒フレームから学習する,高精度ノイズモデリングのための新しいフレームワークを開発する。
PNNPは物理誘導ノイズデカップリング(PND)、物理誘導プロキシモデル(PPM)、微分分布指向損失(DDL)の3つの効率的な手法を統合する。
PNDはダークフレームを異なるコンポーネントに分離し、異なるレベルのノイズを柔軟な方法で処理することで、ノイズニューラルプロキシの複雑さを低減します。
PPMは、生成したノイズを効果的に拘束するために物理的事前を組み込んでおり、ノイズニューラルプロキシの精度を高める。
DDLは、ノイズニューラルプロキシの精度を促進するノイズモデリングの明示的で信頼性の高い監視を提供する。
公開低照度生画像復調データセットと実低照度画像シナリオに関する大規模な実験は、我々のPNNPフレームワークの優れた性能を示している。 Low-light raw image denoising plays a crucial role in mobile photography, and learning-based methods have become the mainstream approach. Training the learning-based methods with synthetic data emerges as an efficient and practical alternative to paired real data. However, the quality of synthetic data is inherently limited by the low accuracy of the noise model, which decreases the performance of low-light raw image denoising. In this paper, we develop a novel framework for accurate noise modeling that learns a physics-guided noise neural proxy (PNNP) from dark frames. PNNP integrates three efficient techniques: physics-guided noise decoupling (PND), physics-guided proxy model (PPM), and differentiable distribution-oriented loss (DDL). The PND decouples the dark frame into different components and handles different levels of noise in a flexible manner, which reduces the complexity of the noise neural proxy. The PPM incorporates physical priors to effectively constrain the generated noise, which promotes the accuracy of the noise neural proxy. The DDL provides explicit and reliable supervision for noise modeling, which promotes the precision of the noise neural proxy. Extensive experiments on public low-light raw image denoising datasets and real low-light imaging scenarios demonstrate the superior performance of our PNNP framework. | 翻訳日:2023-10-16 12:50:07 公開日:2023-10-13 |
# リアルタイムアプリケーションのためのトレーニングとビジュアルエラー予測 Training and Predicting Visual Error for Real-Time Applications ( http://arxiv.org/abs/2310.09125v1 ) ライセンス: Link先を確認 | Jo\~ao Lib\'orio Cardoso, Bernhard Kerbl, Lei Yang, Yury Uralsky, Michael Wimmer | (参考訳) 視覚誤差メトリクスは、知覚された画像の類似性の定量化において基本的な役割を果たす。
最近では、コンテンツ適応型シェーディングやシェーディング再利用といったリアルタイムアプリケーションでのユースケースが登場し、パフォーマンス向上と効率向上が図られている。
様々な測定基準が確立され、最も洗練されたものは人間の視覚システムの知覚特性を捉えることができる。
しかし、それらの複雑さ、計算費用、参照画像への依存により、リアルタイムに一般化された使用を防ぎ、最も単純なメトリクスのみを使用するように制限されている。
本研究では,参照や描画を必要とせずに,様々な視覚的メトリクスを予測する畳み込みニューラルネットワークの能力について検討する。
具体的には、シェーディングの再利用やシェーディングレートの低減によって生じる視覚エラーを推定するために、ニューラルネットワークをトレーニングしてデプロイする。
その結果得られたモデルは分散の70%から90%を占め、計算時間は最大で1桁速くなった。
今回のソリューションでは,最先端の遅延シェーディングパイプラインで容易に使用可能な画像空間情報と,以前のフレームからの再投影を組み合わせることで,これまで見つからなかった領域においても,視覚エラーの適切な推定を可能にする。
本稿では、適切な畳み込みネットワークアーキテクチャとトレーニングのためのデータ準備の検討について述べる。
我々は,遅延パイプラインでコンテンツ適応シェーディングを実装したリアルタイムアプリケーションにおいて,複雑なエラーメトリックをインタラクティブレートで予測するネットワークの能力を示す。
画像領域の未確認部分によって、我々の手法は最先端の手法と比較して最大2ドル以上の性能を達成できる。 Visual error metrics play a fundamental role in the quantification of perceived image similarity. Most recently, use cases for them in real-time applications have emerged, such as content-adaptive shading and shading reuse to increase performance and improve efficiency. A wide range of different metrics has been established, with the most sophisticated being capable of capturing the perceptual characteristics of the human visual system. However, their complexity, computational expense, and reliance on reference images to compare against prevent their generalized use in real-time, restricting such applications to using only the simplest available metrics. In this work, we explore the abilities of convolutional neural networks to predict a variety of visual metrics without requiring either reference or rendered images. Specifically, we train and deploy a neural network to estimate the visual error resulting from reusing shading or using reduced shading rates. The resulting models account for 70%-90% of the variance while achieving up to an order of magnitude faster computation times. Our solution combines image-space information that is readily available in most state-of-the-art deferred shading pipelines with reprojection from previous frames to enable an adequate estimate of visual errors, even in previously unseen regions. We describe a suitable convolutional network architecture and considerations for data preparation for training. We demonstrate the capability of our network to predict complex error metrics at interactive rates in a real-time application that implements content-adaptive shading in a deferred pipeline. Depending on the portion of unseen image regions, our approach can achieve up to $2\times$ performance compared to state-of-the-art methods. | 翻訳日:2023-10-16 12:49:43 公開日:2023-10-13 |
# シミュレーションに基づく強化学習による音楽プレイリストの自動生成 Automatic Music Playlist Generation via Simulation-based Reinforcement Learning ( http://arxiv.org/abs/2310.09123v1 ) ライセンス: Link先を確認 | Federico Tomasi, Joseph Cauteruccio, Surya Kanoria, Kamil Ciosek, Matteo Rinaldi, Zhenwen Dai | (参考訳) プレイリストのパーソナライズは音楽ストリーミングサービスでは一般的な機能であるが、協調フィルタリングのような従来の手法は、コンテンツ品質に関する明確な仮定に依存してレコメンデーションの作り方を学ぶ。
このような仮定は、しばしばオフラインモデルの目的とオンラインユーザの満足度指標の不一致をもたらす。
本稿では,シミュレーションされたプレイリスト生成環境を用いてユーザ満足度指標を直接最適化することにより,そのような制約を解決する強化学習フレームワークを提案する。
本シミュレータを用いて,RL の大規模状態と行動空間がもたらす課題に対処するため,DQN (AH-DQN) を改良したDeep Q-Network を開発し,訓練する。
結果として得られたポリシーは、消費指標の最大化を期待して、候補項目の大規模かつ動的なセットからレコメンデーションを行うことができる。
パブリックデータセットとプロプライエタリデータセットの両方でトレーニングされた環境モデルを使用するシミュレーションを通じてエージェントをオフラインで分析および評価する。
オンラインA/Bテストにおける基準手法と比較して,これらのエージェントがユーザ満足度を向上することを示す。
最後に,シミュレーション結果から得られた性能評価とオンライン測定結果との相関が強いことを実証する。 Personalization of playlists is a common feature in music streaming services, but conventional techniques, such as collaborative filtering, rely on explicit assumptions regarding content quality to learn how to make recommendations. Such assumptions often result in misalignment between offline model objectives and online user satisfaction metrics. In this paper, we present a reinforcement learning framework that solves for such limitations by directly optimizing for user satisfaction metrics via the use of a simulated playlist-generation environment. Using this simulator we develop and train a modified Deep Q-Network, the action head DQN (AH-DQN), in a manner that addresses the challenges imposed by the large state and action space of our RL formulation. The resulting policy is capable of making recommendations from large and dynamic sets of candidate items with the expectation of maximizing consumption metrics. We analyze and evaluate agents offline via simulations that use environment models trained on both public and proprietary streaming datasets. We show how these agents lead to better user-satisfaction metrics compared to baseline methods during online A/B tests. Finally, we demonstrate that performance assessments produced from our simulator are strongly correlated with observed online metric results. | 翻訳日:2023-10-16 12:49:18 公開日:2023-10-13 |
# セマンティックセグメンテーションのための標準CNNの等角形状画像構築法 Equirectangular image construction method for standard CNNs for Semantic Segmentation ( http://arxiv.org/abs/2310.09122v1 ) ライセンス: Link先を確認 | Haoqian Chen, Jian Liu, Minghe Li, Kaiwen Jiang, Ziheng Xu, Rencheng Sun and Yi Sui | (参考訳) 360{\deg}球面画像は広視野の利点を持ち、通常は等角像として知られる平面上に投影される。
等角像の物体形状は歪められ、翻訳不変性が欠如する。
さらに、ラベル付き等方形画像の公開データセットは少なく、標準CNNモデルが等方形画像を効果的に処理することが課題である。
この問題に対処するために,視線画像を等角形に変換する手法を提案する。
球面中心投射と等距離円筒投射の逆変換を用いる。
これにより、標準CNNは、等方形画像の異なる位置における歪み特徴を学習し、等方形画像を意味的に得ることができる。
視点画像の投影位置を決定するパラメータ {\phi} は、UNet、UNet++、SegNet、PSPNet、DeepLab v3+といったさまざまなデータセットとモデルを用いて分析されている。
実験により,正方形画像の効果的なセマンティックセグメンテーションには,標準CNNでは6{\pi}/16が最適であることが示された。
他の3種類の方法(教師付き学習、教師なし学習、データ拡張)と比較すると、本論文で提案する手法は平均iou値が43.76%である。
この値は、他の3つの方法よりもそれぞれ23.85%、10.7%、17.23%高い。 360{\deg} spherical images have advantages of wide view field, and are typically projected on a planar plane for processing, which is known as equirectangular image. The object shape in equirectangular images can be distorted and lack translation invariance. In addition, there are few publicly dataset of equirectangular images with labels, which presents a challenge for standard CNNs models to process equirectangular images effectively. To tackle this problem, we propose a methodology for converting a perspective image into equirectangular image. The inverse transformation of the spherical center projection and the equidistant cylindrical projection are employed. This enables the standard CNNs to learn the distortion features at different positions in the equirectangular image and thereby gain the ability to semantically the equirectangular image. The parameter, {\phi}, which determines the projection position of the perspective image, has been analyzed using various datasets and models, such as UNet, UNet++, SegNet, PSPNet, and DeepLab v3+. The experiments demonstrate that an optimal value of {\phi} for effective semantic segmentation of equirectangular images is 6{\pi}/16 for standard CNNs. Compared with the other three types of methods (supervised learning, unsupervised learning and data augmentation), the method proposed in this paper has the best average IoU value of 43.76%. This value is 23.85%, 10.7% and 17.23% higher than those of other three methods, respectively. | 翻訳日:2023-10-16 12:48:56 公開日:2023-10-13 |
# 認識的境界と量子不確定性: ローカルオブザーバーが予測できないこと Epistemic Boundaries and Quantum Indeterminacy: What Local Observers Can (Not) Predict ( http://arxiv.org/abs/2310.09121v1 ) ライセンス: Link先を確認 | Johannes Fankhauser | (参考訳) 量子理論の健全な教訓の1つは、その固有の不決定性である。
つまり、一般的な物理状態は測定結果に不確実性を示す。
我々は、量子不確実性が基本であるか否か、または量子後理論が平均的に生まれた規則に準拠しながら予測上の利点を提供できるかどうかを正式に定義し、対処する。
我々は,予測アドバンテージ,信号局所性,量子観測者間の認識論的関係という3つの側面を組み合わせたno-goクレームを提案する。
解析の結果、標準量子確率よりも真の予測優位に根本的な限界が存在することが判明した。
しかし、異なる観測者間の「信頼性のある相互主観性」の仮定が破られると、主観的予測的優位性は原則として存在する。
これは、同じ理論の異なる観測者の間での疫学的な境界を伴っている。
この発見は、自然の予測可能性の限界の側面として量子の不確実性に私たちを一致させる。 One of quantum theory's salient lessons is its inherent indeterminacy. That is, generic physical states imply uncertainty for the outcomes of measurements. We formally define and address whether quantum uncertainty could be fundamental or whether post-quantum theories can offer predictive advantage whilst conforming to the Born rule on average. We present a no-go claim combining three aspects: predictive advantage, signal-locality, and the epistemic relationship between quantum observers. The results of the analysis lead to the conclusion that there exists a fundamental limitation on genuine predictive advantage over standard quantum probabilities. However, we uncover a fascinating possibility: when the assumption of 'reliable intersubjectivity' between different observers is violated, subjective predictive advantage can, in principle, exist. This, in turn, entails an epistemic boundary between different observers of the same theory. The findings reconcile us to quantum uncertainty as an aspect of limits on Nature's predictability. | 翻訳日:2023-10-16 12:48:30 公開日:2023-10-13 |
# 中国語スペルチェックのための簡易なプラグアンドプレイ検出モジュール A Frustratingly Easy Plug-and-Play Detection-and-Reasoning Module for Chinese Spelling Check ( http://arxiv.org/abs/2310.09119v1 ) ライセンス: Link先を確認 | Haojing Huang, Jingheng Ye, Qingyu Zhou, Yinghui Li, Yangning Li, Feng Zhou, Hai-Tao Zheng | (参考訳) 近年、中国の綴りチェック(csc)は、タスク固有の事前学習方法の設計や補助的なタスクの導入によって大幅に改善されている。
本稿では,中国語に関する豊富な外部知識をより直接的かつ効率的に活用できるように,サブタスクの検出,推論,検索にcscワークフローを分解することを提案する。
具体的には,既存のSOTA非自己回帰CSCモデルと互換性のあるプラグアンドプレイ検出・推論モジュールを設計し,性能をさらに向上させる。
1つのモデルでトレーニングされた検出・推論モジュールは、他のモデルにもメリットがある。
また,タスク分解による主解釈可能性についても検討した。
提案モジュールの有効性と競争性を示す実験と詳細な分析を行った。 In recent years, Chinese Spelling Check (CSC) has been greatly improved by designing task-specific pre-training methods or introducing auxiliary tasks, which mostly solve this task in an end-to-end fashion. In this paper, we propose to decompose the CSC workflow into detection, reasoning, and searching subtasks so that the rich external knowledge about the Chinese language can be leveraged more directly and efficiently. Specifically, we design a plug-and-play detection-and-reasoning module that is compatible with existing SOTA non-autoregressive CSC models to further boost their performance. We find that the detection-and-reasoning module trained for one model can also benefit other models. We also study the primary interpretability provided by the task decomposition. Extensive experiments and detailed analyses demonstrate the effectiveness and competitiveness of the proposed module. | 翻訳日:2023-10-16 12:48:14 公開日:2023-10-13 |
# あらゆる量子が役に立つ:凸性を超えた量子資源の運用上の利点 Every quantum helps: Operational advantage of quantum resources beyond convexity ( http://arxiv.org/abs/2310.09154v1 ) ライセンス: Link先を確認 | Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki | (参考訳) 量子技術は前例のない利点をもたらすと期待されているため、量子力学的特性が何に役立つのかを特定することは重要な疑問である。
量子資源理論は、エンタングルメントやコヒーレンスといった基本的な性質の理解に成功している量子特性を分析するための統一的な枠組みを提供する。
これらは常に量子上の利点を識別できる凸資源の例であるが、多くの物理資源は非凸状態の集合によって記述され、その解釈はいまだ解明されていない。
本稿では,一般資源理論における一般化ロバスト性資源測度の2つの操作的解釈を提供することにより,凸性仮定を伴わない量子資源の有用性に関する基礎的な問題に対処する。
一方,非線形資源証人の観点から一般化されたロバスト性に着目し,マルチコピーチャネル識別タスクにおいて,任意の状態が自由状態よりも有利であることを示す。
一方,理論が複数の制約によって特徴づけられるシナリオを考察し,一般化されたロバスト性が単一コピーチャネル識別設定において最悪の利点と一致することを示す。
これらの特徴から、任意の量子資源状態は、自由集合の構造を仮定することなく、一般資源理論における識別問題において定性的かつ定量的な優位性を示すと結論づける。 As quantum technologies are expected to provide us with unprecedented benefits, identifying what quantum-mechanical properties are useful is a pivotal question. Quantum resource theories provide a unified framework to analyze such quantum properties, which has been successful in the understanding of fundamental properties such as entanglement and coherence. While these are examples of convex resources, for which quantum advantages can always be identified, many physical resources are described by a non-convex set of free states and their interpretation has so far remained elusive. Here we address the fundamental question of the usefulness of quantum resources without convexity assumption, by providing two operational interpretations of the generalized robustness resource measure in general resource theories. On the one hand, we characterize the generalized robustness in terms of a non-linear resource witness and reveal that any state is more advantageous than a free one in some multi-copy channel discrimination task. On the other hand, we consider a scenario where a theory is characterized by multiple constraints and show that the generalized robustness coincides with the worst-case advantage in a single-copy channel discrimination setting. Based on these characterizations, we conclude that every quantum resource state shows a qualitative and quantitative advantage in discrimination problems in a general resource theory even without any assumption on the structure of the free sets. | 翻訳日:2023-10-16 12:43:34 公開日:2023-10-13 |
# BibRank -Metadataを利用した自動キーワード抽出プラットフォーム BibRank: Automatic Keyphrase Extraction Platform Using~Metadata ( http://arxiv.org/abs/2310.09151v1 ) ライセンス: Link先を確認 | Abdelrhman Eldallal and Eduard Barbu | (参考訳) 自動キーフレーズ抽出は、文書に必須のフレーズを識別する。
これらのキーフレーズは、文書分類、クラスタリング、レコメンデーション、インデックス付け、検索、要約、テキストの単純化といった様々なタスクにおいて重要である。
本稿では,keyphraseデータセットを統合し,keyphrase抽出アルゴリズムの評価を容易にするプラットフォームを提案する。
このプラットフォームには、BibTeXフォーマットで書誌データを解析したリッチデータセットを活用する自動キーフレーズ抽出アルゴリズムであるBibRankが含まれている。
BibRankは、文書からキーフレーズを抽出するために、革新的な重み付け技術と位置、統計、単語の共起情報を組み合わせる。
このプラットフォームは、キーフレーズ抽出アルゴリズムを強化し、自然言語処理の分野を前進させようとする研究者や開発者にとって価値がある。 Automatic Keyphrase Extraction involves identifying essential phrases in a document. These keyphrases are crucial in various tasks such as document classification, clustering, recommendation, indexing, searching, summarization, and text simplification. This paper introduces a platform that integrates keyphrase datasets and facilitates the evaluation of keyphrase extraction algorithms. The platform includes BibRank, an automatic keyphrase extraction algorithm that leverages a rich dataset obtained by parsing bibliographic data in BibTeX format. BibRank combines innovative weighting techniques with positional, statistical, and word co-occurrence information to extract keyphrases from documents. The platform proves valuable for researchers and developers seeking to enhance their keyphrase extraction algorithms and advance the field of natural language processing. | 翻訳日:2023-10-16 12:43:11 公開日:2023-10-13 |
# 欠陥原子格子を用いた一方向フォトニックリフレクタ Unidirectional Photonic Reflector Using a Defective Atomic Lattice ( http://arxiv.org/abs/2310.09150v1 ) ライセンス: Link先を確認 | Tianming Li, Hong Yang, Maohua Wang, Chengping Yin, Tinggui Zhang, and Yan Zhang | (参考訳) 空間対称性の破れに基づき, 空洞化を意図した欠陥細胞を有する一次元原子格子を用いた一方向フォトニックリフレクタの設計法を提案する。
3レベル原子をトラップし、電磁誘導透過状態に誘導し、格子内の空洞細胞の数と位置を巧妙に設計することで、EITウィンドウ内で広帯域かつ高一方向反射領域を実現できることを示す数値シミュレーションを行った。
この一方向反射器方式は、光学的非整合性を達成するための新しいプラットフォームを提供し、光学回路や非整合性のデバイスを極低エネルギーで設計するための潜在的応用を提供する。 Based on the broken spatial symmetry, we propose a novel scheme for engineering a unidirectional photonic reflector using a one-dimensional atomic lattice with defective cells that have been specifically designed to be vacant. By trapping three-level atoms and driving them into the regime of electromagnetically induced transparency, and through the skillful design of the number and position of vacant cells in the lattice, numerical simulations demonstrate that a broad and high unidirectional reflection region can be realized within EIT window. This proposed unidirectional reflector scheme provides a new platform for achieving optical nonreciprocity and has potential applications for designing optical circuits and devices of nonreciprocity at extremely low energy levels. | 翻訳日:2023-10-16 12:42:56 公開日:2023-10-13 |
# ワッサーシュタイン空間における格子近似 Lattice Approximations in Wasserstein Space ( http://arxiv.org/abs/2310.09149v1 ) ライセンス: Link先を確認 | Keaton Hamm and Varun Khurana | (参考訳) 我々は、ワッサーシュタイン空間 $W_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ における測度の構造的近似を、$\mathbb{R}^d$ のスケールされたボロノイ分割に基づく離散的かつ断片的な定数測度により考える。
フルランクの束 $\lambda$ が $h\in(0,1]$ の係数でスケールされるならば、$h\lambda$ の voronoi 分割に基づく測度の近似は $d$ や $p$ にかかわらず $o(h)$ である。
次に、コンパクトにサポートされた測度の短期的近似が、既知の最適量子化子と経験的測度近似の既知のレートに一致する$o(n^{-\frac1d})$であることを示すために被覆議論を用いる。
最後に、これらの結果を十分に減衰した非コンパクトな測度に拡張する。 We consider structured approximation of measures in Wasserstein space $W_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ by discrete and piecewise constant measures based on a scaled Voronoi partition of $\mathbb{R}^d$. We show that if a full rank lattice $\Lambda$ is scaled by a factor of $h\in(0,1]$, then approximation of a measure based on the Voronoi partition of $h\Lambda$ is $O(h)$ regardless of $d$ or $p$. We then use a covering argument to show that $N$-term approximations of compactly supported measures is $O(N^{-\frac1d})$ which matches known rates for optimal quantizers and empirical measure approximation in most instances. Finally, we extend these results to noncompactly supported measures with sufficient decay. | 翻訳日:2023-10-16 12:42:45 公開日:2023-10-13 |
# テキストベースのVQAのためのグラフ推論におけるスパース空間関係の探索 Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA ( http://arxiv.org/abs/2310.09147v1 ) ライセンス: Link先を確認 | Sheng Zhou, Dan Guo, Jia Li, Xun Yang, Meng Wang | (参考訳) text-based visual question answering (textvqa) は冗長な関係推論を避けるという大きな課題に直面している。
具体的に言うと、検出された多数のオブジェクトと光学文字認識(OCR)トークンは、リッチな視覚的関係をもたらす。
既存の作品は、全ての視覚的関係を答えの予測を考慮している。
しかし、(1)画像中の1つの被写体は、異なる境界ボックス(考慮された反復対象)を持つ複数の被写体として容易に検出できる。
2)画像から検出された2つの空間的距離のocrトークンは、解答推論において弱い意味依存を持ち、(3)近傍のオブジェクトとトークンの共存は、回答を予測する上で重要な視覚的手がかりを示す可能性がある。
これらすべてを活用して回答を予測するのではなく、最も重要なコネクションを特定したり、冗長なコネクションを排除したりしています。
本稿では,空間認識型関係解析技術を導入した空間グラフネットワーク(SSGN)を提案する。
関係測定のための空間的要因として,空間的距離,幾何学的次元,重なり領域,ディウを用い,空間的に認識するプルーニングを行う。
グラフ学習における3つの視覚的関係として、オブジェクトオブジェクト、OCR-OCRトークン、オブジェクト-OCRトークンの関係を考える。
ssgn はプログレッシブグラフ学習アーキテクチャであり、関連付けられたオブジェクト・ツー・スパースグラフと、各オブジェクトベースのスパースグラフとトークンベースのスパースグラフにおける重要な関係を検証する。
TextVQAとST-VQAデータセットの実験結果は、SSGNが有望なパフォーマンスを達成することを示す。
また, 可視化結果により, 本手法の解釈性がさらに証明された。 Text-based visual question answering (TextVQA) faces the significant challenge of avoiding redundant relational inference. To be specific, a large number of detected objects and optical character recognition (OCR) tokens result in rich visual relationships. Existing works take all visual relationships into account for answer prediction. However, there are three observations: (1) a single subject in the images can be easily detected as multiple objects with distinct bounding boxes (considered repetitive objects). The associations between these repetitive objects are superfluous for answer reasoning; (2) two spatially distant OCR tokens detected in the image frequently have weak semantic dependencies for answer reasoning; and (3) the co-existence of nearby objects and tokens may be indicative of important visual cues for predicting answers. Rather than utilizing all of them for answer prediction, we make an effort to identify the most important connections or eliminate redundant ones. We propose a sparse spatial graph network (SSGN) that introduces a spatially aware relation pruning technique to this task. As spatial factors for relation measurement, we employ spatial distance, geometric dimension, overlap area, and DIoU for spatially aware pruning. We consider three visual relationships for graph learning: object-object, OCR-OCR tokens, and object-OCR token relationships. SSGN is a progressive graph learning architecture that verifies the pivotal relations in the correlated object-token sparse graph, and then in the respective object-based sparse graph and token-based sparse graph. Experiment results on TextVQA and ST-VQA datasets demonstrate that SSGN achieves promising performances. And some visualization results further demonstrate the interpretability of our method. | 翻訳日:2023-10-16 12:42:20 公開日:2023-10-13 |
# Lincoln AI Computing Survey (LAICS) のアップデート Lincoln AI Computing Survey (LAICS) Update ( http://arxiv.org/abs/2310.09145v1 ) ライセンス: Link先を確認 | Albert Reuther and Peter Michaleas and Michael Jones and Vijay Gadepally and Siddharth Samsi and Jeremy Kepner | (参考訳) この論文は、過去4年間のAIアクセラレータとプロセッサの調査の更新であり、現在はLincoln AI Computing Survey - LAICS(レース)と呼ばれている。
本稿は,近年,ピーク性能とピーク電力消費数で公表されている,現在の商用アクセラレータをまとめ,要約する。
散乱グラフ上で性能とパワー値がプロットされ、このプロットの傾向から多くの次元と観測結果が再度議論され、分析される。
市場セグメントは散乱プロットでハイライトされ、各セグメントのズームされたプロットも含まれている。
最後に、今年の調査で追加された新しいアクセラレータのそれぞれについて、簡単な説明が記載されている。 This paper is an update of the survey of AI accelerators and processors from past four years, which is now called the Lincoln AI Computing Survey - LAICS (pronounced "lace"). As in past years, this paper collects and summarizes the current commercial accelerators that have been publicly announced with peak performance and peak power consumption numbers. The performance and power values are plotted on a scatter graph, and a number of dimensions and observations from the trends on this plot are again discussed and analyzed. Market segments are highlighted on the scatter plot, and zoomed plots of each segment are also included. Finally, a brief description of each of the new accelerators that have been added in the survey this year is included. | 翻訳日:2023-10-16 12:41:33 公開日:2023-10-13 |
# 強化学習におけるグッドハートの法則 Goodhart's Law in Reinforcement Learning ( http://arxiv.org/abs/2310.09144v1 ) ライセンス: Link先を確認 | Jacek Karwowski, Oliver Hayman, Xingjian Bai, Klaus Kiendlhofer, Charlie Griffin, Joar Skalse | (参考訳) 現実世界の複雑なタスクを完璧にキャプチャする報酬関数の実装は非現実的です。
結果として、報酬関数をその定義よりも真の目的のプロキシとして考えるのが適切であることが多い。
この現象をグッドハートの法則のレンズを通して研究し、ある臨界点を超えて不完全なプロキシの最適化が真の目的の性能を低下させると予測する。
まず,この効果の大きさを定量化し,不完全な代行報酬の最適化が,グッドハートの法則によって予測される幅広い環境や報奨関数の振る舞いにつながることを実証的に示す方法を提案する。
次に、なぜグッドハートの法則がマルコフ決定過程で起こるのかを幾何学的に説明する。
これらの理論的洞察を用いて、上記の落とし穴を確実に回避し、理論的後悔境界を導出する最適な早期停止法を提案する。
さらに,真の報酬関数が不確実な状況において,最悪の報酬を最大化する訓練手法を考案した。
最後に,早期停止法を実験的に評価した。
本研究は,報酬の相違による強化学習の理論的研究の基盤となるものである。 Implementing a reward function that perfectly captures a complex task in the real world is impractical. As a result, it is often appropriate to think of the reward function as a proxy for the true objective rather than as its definition. We study this phenomenon through the lens of Goodhart's law, which predicts that increasing optimisation of an imperfect proxy beyond some critical point decreases performance on the true objective. First, we propose a way to quantify the magnitude of this effect and show empirically that optimising an imperfect proxy reward often leads to the behaviour predicted by Goodhart's law for a wide range of environments and reward functions. We then provide a geometric explanation for why Goodhart's law occurs in Markov decision processes. We use these theoretical insights to propose an optimal early stopping method that provably avoids the aforementioned pitfall and derive theoretical regret bounds for this method. Moreover, we derive a training method that maximises worst-case reward, for the setting where there is uncertainty about the true reward function. Finally, we evaluate our early stopping method experimentally. Our results support a foundation for a theoretically-principled study of reinforcement learning under reward misspecification. | 翻訳日:2023-10-16 12:40:44 公開日:2023-10-13 |
# PuoBERTa:セツワナのキュレート言語モデルの訓練と評価 PuoBERTa: Training and evaluation of a curated language model for Setswana ( http://arxiv.org/abs/2310.09141v1 ) ライセンス: Link先を確認 | Vukosi Marivate, Moseli Mots'Oehli, Valencia Wagner, Richard Lastrucci and Isheanesu Dzingirai | (参考訳) 自然言語処理(NLP)は、Setswanaのような低リソース言語では遅れを取っているが、英語のような豊富なリソース言語では大きな進歩を遂げている。
本稿では,seswana用に特別に訓練されたカスタマイズされたマスキング言語モデルpuobertaについて述べる。
我々は,PuoBERTaのトレーニングのための高品質なコーパスを生成するために,多種多様なモノリンガルテキストの収集,キュレート,準備を行った。
setwanaのためのモノリンガルリソースの作成に先立って,part-of-speech(pos)タグ,named entity recognition(ner),news categorizationなど,いくつかのnlpタスクでpuobertaを評価した。
さらに、新しいセツワナニュース分類データセットを導入し、PuoBERTaを使った初期ベンチマークを提供した。
我々の研究は、セツワナのような未調査言語に対するNLP能力の育成におけるPuoBERTaの有効性を実証し、今後の研究方向性の道を開く。 Natural language processing (NLP) has made significant progress for well-resourced languages such as English but lagged behind for low-resource languages like Setswana. This paper addresses this gap by presenting PuoBERTa, a customised masked language model trained specifically for Setswana. We cover how we collected, curated, and prepared diverse monolingual texts to generate a high-quality corpus for PuoBERTa's training. Building upon previous efforts in creating monolingual resources for Setswana, we evaluated PuoBERTa across several NLP tasks, including part-of-speech (POS) tagging, named entity recognition (NER), and news categorisation. Additionally, we introduced a new Setswana news categorisation dataset and provided the initial benchmarks using PuoBERTa. Our work demonstrates the efficacy of PuoBERTa in fostering NLP capabilities for understudied languages like Setswana and paves the way for future research directions. | 翻訳日:2023-10-16 12:40:11 公開日:2023-10-13 |
# 線形フェルミ系の熱化 Thermalization of linear Fermi systems ( http://arxiv.org/abs/2310.09140v1 ) ライセンス: Link先を確認 | Jose Reslen | (参考訳) 開量子系における熱化の問題は、2次カップリングと線形浴を用いたフェルミオンモデルの観点から考察する。
リンドブラッド方程式の熱力学状態と定常解の両方は、基底代数の項による改革に続く行列積列として表され、定常解の族を特徴づけ、それらが熱状態に対応する場合を決定することができる。
このキャラクタリゼーションは、システムを熱化させる操作メカニズムと、熱平衡から誘導するメカニズムとの相互作用についての洞察を提供する。 The issue of thermalization in open quantum systems is explored from the perspective of fermion models with quadratic couplings and linear baths. Both the thermodynamic state and the stationary solution of the Lindblad equation are rendered as a matrix-product sequence following a reformulation in terms of underlying algebras, allowing to characterize a family of stationary solutions and determine the cases where they correspond to thermal states. This characterization provides insight into the operational mechanisms that lead the system to thermalization and their interplay with mechanisms that tend to drive it out of thermal equilibrium. | 翻訳日:2023-10-16 12:39:52 公開日:2023-10-13 |
# コンセンサスゲーム:均衡探索による言語モデル生成 The Consensus Game: Language Model Generation via Equilibrium Search ( http://arxiv.org/abs/2310.09139v1 ) ライセンス: Link先を確認 | Athul Paul Jacob, Yikang Shen, Gabriele Farina and Jacob Andreas | (参考訳) 質問応答やその他のテキスト生成タスクに適用される場合、言語モデル(lms)は、生成的に(出力分布から回答をサンプリングすることで)クエリされるか、(それらを使用して候補出力のスコア付けやランク付けを行う)判別される。
これらの手順は、しばしば全く異なる予測をもたらす。
コヒーレントlm予測を得るために、相互に非互換なスコアリング手順をどのように調整するか?
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
提案手法は,自然言語文を用いた抽象的正当性パラメータをdisCRIMINATORに伝達しようとする,正規化不完全情報シーケンシャルシグナリングゲームであるConSENSUS GAMEとして,言語モデルをデコードする。
我々は,このゲームの近似平衡を求めるための計算手順を開発し,均衡階数と呼ばれる復号アルゴリズムを導出する。
多数のタスク(理解の理解、常識の推論、数学的問題解決、対話など)に適用され、平衡レベルが一貫して、時には既存のlm復号法よりもパフォーマンスが向上する。
これらの結果は、LMにおける真理性と一貫性の基本的な課題に対処するためのゲーム理論ツールの約束を強調している。 When applied to question answering and other text generation tasks, language models (LMs) may be queried generatively (by sampling answers from their output distribution) or discriminatively (by using them to score or rank a set of candidate outputs). These procedures sometimes yield very different predictions. How do we reconcile mutually incompatible scoring procedures to obtain coherent LM predictions? We introduce a new, a training-free, game-theoretic procedure for language model decoding. Our approach casts language model decoding as a regularized imperfect-information sequential signaling game - which we term the CONSENSUS GAME - in which a GENERATOR seeks to communicate an abstract correctness parameter using natural language sentences to a DISCRIMINATOR. We develop computational procedures for finding approximate equilibria of this game, resulting in a decoding algorithm we call EQUILIBRIUM-RANKING. Applied to a large number of tasks (including reading comprehension, commonsense reasoning, mathematical problem-solving, and dialog), EQUILIBRIUM-RANKING consistently, and sometimes substantially, improves performance over existing LM decoding procedures - on multiple benchmarks, we observe that applying EQUILIBRIUM-RANKING to LLaMA-7B outperforms the much larger LLaMA-65B and PaLM-540B models. These results highlight the promise of game-theoretic tools for addressing fundamental challenges of truthfulness and consistency in LMs. | 翻訳日:2023-10-16 12:39:43 公開日:2023-10-13 |
# 単層量子近似最適化アルゴリズム干渉法と熱分布サンプリングの関連 Connection between single-layer Quantum Approximate Optimization Algorithm interferometry and thermal distributions sampling ( http://arxiv.org/abs/2310.09172v1 ) ライセンス: Link先を確認 | Pablo D\'iez-Valle, Diego Porras, and Juan Jos\'e Garc\'ia-Ripoll | (参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、量子コンピュータ上の組合せ最適化問題の近似解を求めるアルゴリズムである。
しかし、アルゴリズムの1つの層が既に古典的なコンピュータでシミュレートできる範囲を超えて確率分布を設計しているという合理的な複雑性仮定の下で理論的に実証されたため、サンプリング目的にも関心が集まっている。
この点に関して、近年の研究では、普遍イジングモデルにおいて、この大域的確率分布はスピン模型の内部相関に依存する温度における純だが熱的な分布に似ていることが示されている。
本研究では,アルゴリズムの干渉論的解釈により,固有状態の振幅と単層QAOAによって生成されるボルツマン分布の理論的導出を拡張する。
また,本行動が実用的かつ根本的な視点から与える影響についても考察する。 The Quantum Approximate Optimization Algorithm (QAOA) is an algorithm originally proposed to find approximate solutions to Combinatorial Optimization problems on quantum computers. However, the algorithm has also attracted interest for sampling purposes since it was theoretically demonstrated under reasonable complexity assumptions that one layer of the algorithm already engineers a probability distribution beyond what can be simulated by classical computers. In this regard, a recent study has shown as well that, in universal Ising models, this global probability distribution resembles pure but thermal-like distributions at a temperature that depends on internal correlations of the spin model. In this work, through an interferometric interpretation of the algorithm, we extend the theoretical derivation of the amplitudes of the eigenstates, and the Boltzmann distributions generated by single-layer QAOA. We also review the implications that this behavior has from both a practical and fundamental perspective. | 翻訳日:2023-10-16 12:30:56 公開日:2023-10-13 |
# mnmdtw: カメラによる移動誤差定位のための動的時間ウォーピングの拡張 mnmDTW: An extension to Dynamic Time Warping for Camera-based Movement Error Localization ( http://arxiv.org/abs/2310.09170v1 ) ライセンス: Link先を確認 | Sebastian Dill and Maurice Rohr | (参考訳) この概念実証では,エクササイズビデオからポーズ情報を抽出するためにコンピュータビジョン(CV)手法を用いる。
次に、ダイナミック・タイム・ウォーピング(DTW)の修正版を使用し、エクササイズのゴールド標準実行からの偏差を計算する。
具体的には、各部位間の距離を個別に算出し、運動精度をより正確に測定する。
このメトリクスを通じて、エクササイズミスがはっきりと見え、識別可能で、ローカライズできることを示せる。 In this proof of concept, we use Computer Vision (CV) methods to extract pose information out of exercise videos. We then employ a modified version of Dynamic Time Warping (DTW) to calculate the deviation from a gold standard execution of the exercise. Specifically, we calculate the distance between each body part individually to get a more precise measure for exercise accuracy. We can show that exercise mistakes are clearly visible, identifiable and localizable through this metric. | 翻訳日:2023-10-16 12:30:38 公開日:2023-10-13 |
# explore-instruct: 能動的探索によるドメイン固有の命令カバレッジの向上 Explore-Instruct: Enhancing Domain-Specific Instruction Coverage through Active Exploration ( http://arxiv.org/abs/2310.09168v1 ) ライセンス: Link先を確認 | Fanqi Wan, Xinting Huang, Tao Yang, Xiaojun Quan, Wei Bi, Shuming Shi | (参考訳) インストラクションチューニングは、拡張された多様性によって大幅に最適化され、より広い範囲のタスクを扱うことができるモデルとなる。
しかし、そのようなチューニングに使用される既存のデータは、個々のドメインの不十分なカバレッジを示すことが多く、これらの領域内のニュアンスな理解と相互作用の範囲を制限する。
そこで本研究では,Large Language Models (LLMs) による積極的な探索を通じて,ドメイン固有の命令チューニングに使用されるデータカバレッジを向上させる手法であるExplore-Instructを提案する。
Explore-Instructは、汎用的なドメインユースケースに基づいて、多種多様なドメイン中心の命令チューニングデータを得るための探索アルゴリズムを実装することで、さまざまなバリエーションや可能性を探究する。
データ中心分析は、ドメイン固有の命令カバレッジを改善するために提案手法の有効性を検証する。
さらに,本モデルの性能は,ドメイン固有のデータ拡張など,複数のベースラインにまたがる大幅な向上を示す。
本研究は,特にドメイン固有の文脈において,命令カバレッジを改善するための有望な機会を提供し,適応可能な言語モデルの開発を促進する。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/Explore-Instruct}で公開されています。 Instruction-tuning can be substantially optimized through enhanced diversity, resulting in models capable of handling a broader spectrum of tasks. However, existing data employed for such tuning often exhibit an inadequate coverage of individual domains, limiting the scope for nuanced comprehension and interactions within these areas. To address this deficiency, we propose Explore-Instruct, a novel approach to enhance the data coverage to be used in domain-specific instruction-tuning through active exploration via Large Language Models (LLMs). Built upon representative domain use cases, Explore-Instruct explores a multitude of variations or possibilities by implementing a search algorithm to obtain diversified and domain-focused instruction-tuning data. Our data-centric analysis validates the effectiveness of this proposed approach in improving domain-specific instruction coverage. Moreover, our model's performance demonstrates considerable advancements over multiple baselines, including those utilizing domain-specific data enhancement. Our findings offer a promising opportunity to improve instruction coverage, especially in domain-specific contexts, thereby advancing the development of adaptable language models. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/Explore-Instruct}. | 翻訳日:2023-10-16 12:30:28 公開日:2023-10-13 |
# ラットの薬物動態予測のためのディープニューラルネットワーク-機械ハイブリッドモデル A Deep Neural Network -- Mechanistic Hybrid Model to Predict Pharmacokinetics in Rat ( http://arxiv.org/abs/2310.09167v1 ) ライセンス: Link先を確認 | Florian F\"uhrer, Andrea Gruber, Holger Diedam, Andreas H. G\"oller, Stephan Menz, Sebastian Schneckener | (参考訳) 薬剤やアグロケミカルとして小分子の開発における重要な側面は、静脈内および経口投与後のシステム利用可能性であり、薬物やアグロケミカルの発達が良好な動態プロファイルを持つ化合物に焦点を合わせることができるため、経静脈的および経口投与後のシステム利用率の予測が極めて望ましい。
しかし, 分子特性, 生物学, 生理学, トレーニングデータとの複雑な相互作用の結果, 可用性は困難であり, 本研究では先ごろ開発されたハイブリッドモデルの改良 [34] を行う。
口腔全露出の中央値は2.85から2.35に減少し,静脈内投与は1.95から1.62に減少した。
これは、より大きなデータセットをトレーニングし、ニューラルネットワークアーキテクチャとメカニカルモデルのパラメトリゼーションを改善することで達成される。
さらに,予測付加エンドポイントへのアプローチを拡張し,セックスやドセージフォームなど,さまざまな共変量を扱う。純粋な機械学習モデルとは対照的に,トレーニングされていない新たなポイントを予測できる。
最初の24時間で露光を予測することで,この特徴を実証する一方,モデルは全露光でのみ訓練されている。 An important aspect in the development of small molecules as drugs or agro-chemicals is their systemic availability after intravenous and oral administration.The prediction of the systemic availability from the chemical structure of a poten-tial candidate is highly desirable, as it allows to focus the drug or agrochemicaldevelopment on compounds with a favorable kinetic profile. However, such pre-dictions are challenging as the availability is the result of the complex interplaybetween molecular properties, biology and physiology and training data is rare.In this work we improve the hybrid model developed earlier [34]. We reducethe median fold change error for the total oral exposure from 2.85 to 2.35 andfor intravenous administration from 1.95 to 1.62. This is achieved by trainingon a larger data set, improving the neural network architecture as well as theparametrization of mechanistic model. Further, we extend our approach to predictadditional endpoints and to handle different covariates, like sex and dosage form.In contrast to a pure machine learning model, our model is able to predict newend points on which it has not been trained. We demonstrate this feature by1predicting the exposure over the first 24h, while the model has only been trainedon the total exposure. | 翻訳日:2023-10-16 12:30:07 公開日:2023-10-13 |
# ケーブルニュースのバイアスを特徴付ける自然言語理解モデルの開発 Developing a Natural Language Understanding Model to Characterize Cable News Bias ( http://arxiv.org/abs/2310.09166v1 ) ライセンス: Link先を確認 | Seth P. Benson and Iain J. Cruickshank | (参考訳) メディアバイアスは社会科学と計算科学の両方で広く研究されてきた。
しかしながら、現在の研究は人間の入力とラベルバイアスに対する主観評価に大きく依存している。
これは特にケーブルニュース研究に当てはまる。
これらの問題に対処するために,ケーブルニュース番組のバイアスを人間の入力なしに特徴付ける教師なし機械学習手法を開発した。
この方法は、名前付きエンティティ認識を通じて言及されるトピックの分析と、同様のバイアスを持つプログラムをクラスタリングするために、スタンス分析を通じてそれらのトピックがどのように議論されるかに依存する。
この手法を2020年のケーブルニュースの書き起こしに適用すると、プログラムクラスタは時間とともに一貫し、ほぼプログラムのケーブルニュースネットワークに対応していることがわかる。
本手法は,メディアバイアスを客観的に評価し,不慣れなメディア環境を特徴付ける将来のツールの可能性を明らかにする。 Media bias has been extensively studied by both social and computational sciences. However, current work still has a large reliance on human input and subjective assessment to label biases. This is especially true for cable news research. To address these issues, we develop an unsupervised machine learning method to characterize the bias of cable news programs without any human input. This method relies on the analysis of what topics are mentioned through Named Entity Recognition and how those topics are discussed through Stance Analysis in order to cluster programs with similar biases together. Applying our method to 2020 cable news transcripts, we find that program clusters are consistent over time and roughly correspond to the cable news network of the program. This method reveals the potential for future tools to objectively assess media bias and characterize unfamiliar media environments. | 翻訳日:2023-10-16 12:29:46 公開日:2023-10-13 |
# マルチタイムコリエータのための随伴マスタ方程式 Adjoint master equation for multi-time correlators ( http://arxiv.org/abs/2310.09164v1 ) ライセンス: Link先を確認 | Ivan V. Panyukov, Vladislav Yu. Shishkov and Evgeny S. Andrianov | (参考訳) 量子回帰定理は、マルコフ近似で力学を記述することができる開量子系の作用素のムリ時間相関を計算するための強力なツールである。
マルチ時間相関器の閉方程式系を得ることができる。
しかし、量子回帰定理の範囲は、多時間相関器の演算子の特定の時間順序によって制限され、時間外相関器は含まない。
本研究では,時間外順序付き相関器に適用可能な多時間相関器の随伴マスター方程式を得る。
この方程式は、大域的あるいは局所的アプローチのような、開量子系の力学を記述する様々な方法に対して導出できることを示した。
マルチ時間相関器の随伴マスター方程式は自己整合性を示す。
すなわち、最終的な方程式は作用素がコリレータ内でどのようにグループ化されるかに依存しず、作用素の特定の時間順序に対する量子回帰定理と一致する。 The quantum regression theorem is a powerful tool for calculating the muli-time correlators of operators of open quantum systems which dynamics can be described in Markovian approximation. It enables to obtain the closed system of equation for the multi-time correlators. However, the scope of the quantum regression theorem is limited by a particular time order of the operators in multi-time correlators and does not include out-of-time-ordered correlators. In this work, we obtain an adjoint master equation for multi-time correlators that is applicable to out-of-time-ordered correlators. We show that this equation can be derived for various approaches to description of the dynamics of open quantum systems, such as the global or local approach. We show that the adjoint master equation for multi-time correlators is self-consistent. Namely, the final equation does not depend on how the operators are grouped inside the correlator, and it coincides with the quantum regression theorem for the particular time ordering of the operators. | 翻訳日:2023-10-16 12:29:32 公開日:2023-10-13 |
# 動的ニューラルネットワークの連立学習と推論 : JEI-DNN Jointly-Learned Exit and Inference for a Dynamic Neural Network : JEI-DNN ( http://arxiv.org/abs/2310.09163v1 ) ライセンス: Link先を確認 | Florence Regol, Joud Chataoui, Mark Coates | (参考訳) 大規模な事前学習モデルと微調整が組み合わさって、機械学習における支配的なアーキテクチャとして徐々に確立されつつある。
これらのモデルは印象的なパフォーマンスを提供するが、その実用的応用は推論に要するリソースの量によって制限されることが多い。
ednn(early-exiting dynamic neural networks)は、モデルが中間層(すなわちearly-exit)から予測を行うことで、この問題を回避する。
EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。
その結果、既存のアプローチのほとんどは、ゲーティングメカニズムに対する信頼度メトリクスのしきい値に依存し、基盤となるバックボーンネットワークと推論モジュールの改善に努めている。
このアプローチは成功したが、根本的な欠点は2つある。
1)GMとIMはトレーニング中に分離され、列車試験ミスマッチにつながる。
2)閾値ゲーティング機構は,予測確率に正のバイアスをもたらすため,不確実性情報を容易に抽出することが困難である。
これら2つのモジュールを接続する新しいアーキテクチャを提案する。
これにより、分類データセットのパフォーマンスが大幅に向上し、不確実性評価機能が改善される。 Large pretrained models, coupled with fine-tuning, are slowly becoming established as the dominant architecture in machine learning. Even though these models offer impressive performance, their practical application is often limited by the prohibitive amount of resources required for every inference. Early-exiting dynamic neural networks (EDNN) circumvent this issue by allowing a model to make some of its predictions from intermediate layers (i.e., early-exit). Training an EDNN architecture is challenging as it consists of two intertwined components: the gating mechanism (GM) that controls early-exiting decisions and the intermediate inference modules (IMs) that perform inference from intermediate representations. As a result, most existing approaches rely on thresholding confidence metrics for the gating mechanism and strive to improve the underlying backbone network and the inference modules. Although successful, this approach has two fundamental shortcomings: 1) the GMs and the IMs are decoupled during training, leading to a train-test mismatch; and 2) the thresholding gating mechanism introduces a positive bias into the predictive probabilities, making it difficult to readily extract uncertainty information. We propose a novel architecture that connects these two modules. This leads to significant performance improvements on classification datasets and enables better uncertainty characterization capabilities. | 翻訳日:2023-10-16 12:29:17 公開日:2023-10-13 |
# 気候変動と持続可能性における量子機械学習の展望 Quantum Machine Learning in Climate Change and Sustainability: a Review ( http://arxiv.org/abs/2310.09162v1 ) ライセンス: Link先を確認 | Amal Nammouchi, Andreas Kassler, Andreas Theorachis | (参考訳) 気候変動とその世界的な持続可能性への影響は重要な課題であり、最先端技術と科学的洞察を組み合わせた革新的な解決策を要求する。
量子機械学習(QML)は、気候変動や持続可能性など、さまざまな領域の複雑な問題に対処するために量子コンピューティングのパワーを活用する、有望なパラダイムとして登場した。
本研究では、気候変動と持続可能性に関連する問題を解決するために量子機械学習を適用した既存の文献を調査する。
我々は, エネルギーシステム, 気候データ予測, 気候モニタリング, 危険事象予測など, 脱炭素化を加速する可能性を持つ有望なqml方法論について検討する。
本稿では、量子機械学習アプローチの課題と現状の限界について論じ、気候変動研究の重要分野におけるqmlに基づく手法活用の可能性と今後の課題について概観する。 Climate change and its impact on global sustainability are critical challenges, demanding innovative solutions that combine cutting-edge technologies and scientific insights. Quantum machine learning (QML) has emerged as a promising paradigm that harnesses the power of quantum computing to address complex problems in various domains including climate change and sustainability. In this work, we survey existing literature that applies quantum machine learning to solve climate change and sustainability-related problems. We review promising QML methodologies that have the potential to accelerate decarbonization including energy systems, climate data forecasting, climate monitoring, and hazardous events predictions. We discuss the challenges and current limitations of quantum machine learning approaches and provide an overview of potential opportunities and future work to leverage QML-based methods in the important area of climate change research. | 翻訳日:2023-10-16 12:28:57 公開日:2023-10-13 |
# 大規模言語モデルの論理推論を学習する Learning To Teach Large Language Models Logical Reasoning ( http://arxiv.org/abs/2310.09158v1 ) ライセンス: Link先を確認 | Meiqi Chen, Yubo Ma, Kaitao Song, Yixin Cao, Yan Zhang, and Dongsheng Li | (参考訳) 大規模言語モデル(llm)は、その言語生成能力と非常に強力な一般化により、学界と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題(幻覚など)のために、実用的な推論タスクにおいて信頼できないコンテンツを出力している。
本稿では,論理推論におけるllmの能力を体系的に探究するために,詳細な調査を行う。
より詳しくは、イベント関係抽出や帰納的推論を含む様々なタスクにおける論理的推論におけるLLMの欠如について検討する。
我々の研究は、llmが厳密な推論でタスクを解決するのに適していないことを示し、反事実的回答を生み出し、反復的に洗練する必要がある。
そこで我々は,LLMを論理的推論能力で支援する戦略を包括的に検討し,複数のシナリオにまたがってより論理的に一貫した回答を得られるようにした。
提案手法では,評価と事前学習のためのマルチホップ推論を含む合成データセット(LLM-LR)も提案する。
様々なタスクに関する大規模で質的な分析は、LLMを論理で教えることの有効性と必要性を検証し、将来の作業でLLMで実用的なタスクを解くための洞察を提供する。 Large language models (LLMs) have gained enormous attention from both academia and industry, due to their exceptional ability in language generation and extremely powerful generalization. However, current LLMs still output unreliable content in practical reasoning tasks due to their inherent issues (e.g., hallucination). To better disentangle this problem, in this paper, we conduct an in-depth investigation to systematically explore the capability of LLMs in logical reasoning. More in detail, we first investigate the deficiency of LLMs in logical reasoning on different tasks, including event relation extraction and deductive reasoning. Our study demonstrates that LLMs are not good reasoners in solving tasks with rigorous reasoning and will produce counterfactual answers, which require us to iteratively refine. Therefore, we comprehensively explore different strategies to endow LLMs with logical reasoning ability, and thus enable them to generate more logically consistent answers across different scenarios. Based on our approach, we also contribute a synthesized dataset (LLM-LR) involving multi-hop reasoning for evaluation and pre-training. Extensive quantitative and qualitative analyses on different tasks also validate the effectiveness and necessity of teaching LLMs with logic and provide insights for solving practical tasks with LLMs in future work. | 翻訳日:2023-10-16 12:28:41 公開日:2023-10-13 |
# 非凸最適化における定常点探索の計算複雑性 The Computational Complexity of Finding Stationary Points in Non-Convex Optimization ( http://arxiv.org/abs/2310.09157v1 ) ライセンス: Link先を確認 | Alexandros Hollender, Manolis Zampetakis | (参考訳) 非凸だが滑らかな目的関数 $f$ over unrestricted $d$-dimensional domain は古典的非凸最適化における最も基本的な問題の1つである。
それでも、問題の次元 $d$ が近似誤差とは無関係である場合、この問題の計算とクエリの複雑さは未だよく理解されていない。
本稿では,以下の計算およびクエリの複雑性結果を示す。 1. 制限のない領域に近似した定常点を求める問題はPLS完全である。
2.$d = 2$ の場合、目的関数に対して最大$O(1/\varepsilon)$値クエリを必要とする $\varepsilon$-approximate 定常点を求めるゼロオーダーアルゴリズムを提供する。
3. 任意のアルゴリズムが対象関数に対する少なくとも$\Omega(1/\varepsilon)$クエリと/またはその勾配を求め、$d=2$のとき$\varepsilon$-approximateの定常点を見つける。
上記の問題と組み合わせると、この問題のクエリの複雑さは$\Theta(1/\varepsilon)$である。
4) $d = 2$の場合、対象関数に最大$o(1/\sqrt{\varepsilon})$値クエリを必要とする制約付き最適化問題において、$\varepsilon$-kkt点を見つけるためのゼロ次アルゴリズムを提供する。
これは、Bubeck と Mikulincer [2020] と Vavasis [1993] の間のギャップを埋め、この問題のクエリ複雑性を$\Theta(1/\sqrt{\varepsilon})$と特徴づける。
5. fearnleyらによる最近の結果と結果を組み合わせること。
2022] 制約付き最適化における近似KKT点の探索は, 制約なし最適化における近似定常点の探索には有効であるが, 逆は不可能であることを示す。 Finding approximate stationary points, i.e., points where the gradient is approximately zero, of non-convex but smooth objective functions $f$ over unrestricted $d$-dimensional domains is one of the most fundamental problems in classical non-convex optimization. Nevertheless, the computational and query complexity of this problem are still not well understood when the dimension $d$ of the problem is independent of the approximation error. In this paper, we show the following computational and query complexity results: 1. The problem of finding approximate stationary points over unrestricted domains is PLS-complete. 2. For $d = 2$, we provide a zero-order algorithm for finding $\varepsilon$-approximate stationary points that requires at most $O(1/\varepsilon)$ value queries to the objective function. 3. We show that any algorithm needs at least $\Omega(1/\varepsilon)$ queries to the objective function and/or its gradient to find $\varepsilon$-approximate stationary points when $d=2$. Combined with the above, this characterizes the query complexity of this problem to be $\Theta(1/\varepsilon)$. 4. For $d = 2$, we provide a zero-order algorithm for finding $\varepsilon$-KKT points in constrained optimization problems that requires at most $O(1/\sqrt{\varepsilon})$ value queries to the objective function. This closes the gap between the works of Bubeck and Mikulincer [2020] and Vavasis [1993] and characterizes the query complexity of this problem to be $\Theta(1/\sqrt{\varepsilon})$. 5. Combining our results with the recent result of Fearnley et al. [2022], we show that finding approximate KKT points in constrained optimization is reducible to finding approximate stationary points in unconstrained optimization but the converse is impossible. | 翻訳日:2023-10-16 12:28:19 公開日:2023-10-13 |
# PaLI-3ビジョン言語モデル: より小さく、より速く、より強く PaLI-3 Vision Language Models: Smaller, Faster, Stronger ( http://arxiv.org/abs/2310.09199v1 ) ライセンス: Link先を確認 | Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut | (参考訳) 本稿では,より小さく,より速く,より強力な視覚言語モデル(VLM)であるPaLI-3について述べる。
この強力な性能に到達するために、分類目的を用いて事前訓練されたビジョントランスフォーマー(ViT)モデルと、対照的に(SigLIP)事前訓練されたモデルを比較した。
SigLIPベースのPaLIは、標準的な画像分類ベンチマークでは若干性能が劣るが、様々なマルチモーダルベンチマーク、特にローカライゼーションと視覚的テキスト理解において、優れた性能を示す。
siglip画像エンコーダを最大20億のパラメータにスケールし,多言語横断モーダル検索における新たな最先端を実現する。
PaLI-3は、わずか5Bのパラメータで、複雑なVLMの基本部品の研究を再開し、新しい世代のスケールアップモデルに拍車をかけることを願っている。 This paper presents PaLI-3, a smaller, faster, and stronger vision language model (VLM) that compares favorably to similar models that are 10x larger. As part of arriving at this strong performance, we compare Vision Transformer (ViT) models pretrained using classification objectives to contrastively (SigLIP) pretrained ones. We find that, while slightly underperforming on standard image classification benchmarks, SigLIP-based PaLI shows superior performance across various multimodal benchmarks, especially on localization and visually-situated text understanding. We scale the SigLIP image encoder up to 2 billion parameters, and achieves a new state-of-the-art on multilingual cross-modal retrieval. We hope that PaLI-3, at only 5B parameters, rekindles research on fundamental pieces of complex VLMs, and could fuel a new generation of scaled-up models. | 翻訳日:2023-10-16 12:22:12 公開日:2023-10-13 |
# Bosonic Andreev境界状態 Bosonic Andreev bound state ( http://arxiv.org/abs/2310.09197v1 ) ライセンス: Link先を確認 | Nobuyuki Okuma | (参考訳) 対の項を持つ一般自由ボソニック系はボゴリューボフ・ド・ゲンヌ(BdG)ハミルトニアンによって記述される。
この表現は擬エルミート行列によって与えられ、フェルミオンBdGハミルトニアンのエルミート表現とは決定的に異なる。
フェルミオンBdG系では、粒子(ホール)バンド全体の位相不変量は非自明であり、マヨラナフェルミオンを含むアンドレフ境界状態(ABS)を特徴づける。
一方、ボソニックの場合、対応する位相不変量はボソニック基底状態の安定性条件のため自明であると考えられる。
本稿では,ABSのボソニックな類似性を実現する2次元モデルについて考察する。
このモデルの境界状態はバルクバンドの外側に位置し、ホールバンドの非自明なベリー位相(または偏光)によって特徴づけられる。
さらに, ブロッホハミルトニアンが欠陥を持つゼロエネルギーフラットバンド限界について, 粒子状態とホール状態が同一である場合について検討した。
この極限において、ベリー位相は初期パリティ時間対称性により$\mathbb{Z}_2$量子化される。
これは、射影構造として欠陥の性質を用いる位相不変量の例である。
したがって、我々のモデルにおける境界状態は本質的にエルミート位相モードとその変種と異なる。 A general free bosonic system with a pairing term is described by a bosonic Bogoliubov-de Gennes (BdG) Hamiltonian. The representation is given by a pseudo-Hermitian matrix, which is crucially different from the Hermitian representation of a fermionic BdG Hamiltonian. In fermionic BdG systems, a topological invariant of the whole particle (hole) bands can be nontrivial, which characterizes the Andreev bound states (ABS) including Majorana fermions. In bosonic cases, on the other hand, the corresponding topological invariant is thought to be trivial owing to the stability condition of the bosonic ground state. In this Letter, we consider a two-dimensional model that realizes a bosonic analogy of the ABS. The boundary states of this model are located outside the bulk bands and are characterized by a nontrivial Berry phase (or polarization) of the hole band. Furthermore, we investigate the zero-energy flat-band limit in which the Bloch Hamiltonian is defective, where the particle and hole states are identical to each other. In this limit, the Berry phase is $\mathbb{Z}_2$ quantized thanks to an emergent parity-time symmetry. This is an example of a topological invariant that uses the defective nature as a projection structure. Thus, boundary states in our model are essentially different from Hermitian topological modes and their variants. | 翻訳日:2023-10-16 12:21:54 公開日:2023-10-13 |
# min max相関クラスタリングのための4近似アルゴリズム A 4-approximation algorithm for min max correlation clustering ( http://arxiv.org/abs/2310.09196v1 ) ライセンス: Link先を確認 | Holger Heidrich, Jannik Irmai, Bjoern Andres | (参考訳) 本稿では,min max相関クラスタリング問題に対する下限法を提案し,この手法に基づき,完全グラフのための組合せ4近似アルゴリズムを提案する。
これは、線形プログラムの定式化(kalhan et al., 2019)と組合せアルゴリズム(davies et al., 2023)を用いて、5の以前の最もよく知られた近似保証を改善する。
我々はこのアルゴリズムをヒューリスティックな結合によって拡張し、いくつかのベンチマークデータセット上でのソリューション品質と実行時の技術状況を改善することを実証的に示す。 We introduce a lower bounding technique for the min max correlation clustering problem and, based on this technique, a combinatorial 4-approximation algorithm for complete graphs. This improves upon the previous best known approximation guarantees of 5, using a linear program formulation (Kalhan et al., 2019), and 4, for a combinatorial algorithm (Davies et al., 2023). We extend this algorithm by a greedy joining heuristic and show empirically that it improves the state of the art in solution quality and runtime on several benchmark datasets. | 翻訳日:2023-10-16 12:21:33 公開日:2023-10-13 |
# 高次元非パラメトリック適応重要サンプリングのための重み付きサンプルを用いた変分オートエンコーダ Variational autoencoder with weighted samples for high-dimensional non-parametric adaptive importance sampling ( http://arxiv.org/abs/2310.09194v1 ) ライセンス: Link先を確認 | Julien Demange-Chryst, Fran\c{c}ois Bachoc, J\'er\^ome Morio, Timoth\'e Krauth | (参考訳) 重み付きサンプルを用いた確率密度関数推定は、すべての適応的重要度サンプリングアルゴリズムの基盤となる。
古典的には、対象の分布は非パラメトリックモデルまたはパラメトリックファミリーで近似される。
しかし、これらのモデルは次元の呪いや柔軟性の欠如に悩まされている。
本稿では,変分オートエンコーダによってパラメータ化された分布の近似モデルとしての利用を提案する。
既存のフレームワークを、新しい目的関数を導入することで、重み付けされたサンプルの場合に拡張する。
得られる分布のファミリーの柔軟性は非パラメトリックモデルと同じくらい表現力があり、推定するパラメータは非常に多いにもかかわらず、このファミリーは古典ガウス系やガウス系混合物ファミリーよりも高次元でより効率的である。
さらに,モデルに柔軟性を付加し,マルチモーダル分布を学習可能にするために,変分オートエンコーダ潜在変数の学習可能な事前分布を考える。
また,可変オートエンコーダのための新しい事前学習手法を導入し,ニューラルネットワークの開始重みを見つけ,後方崩壊現象の発生を可能な限り防止した。
最後に, 提案手法を用いて, 既存の適応的重要度サンプリングアルゴリズムを用いて, 対象分布から点を抽出し, 2つのマルチモーダル問題に対して高次元で稀な事象確率を推定する。 Probability density function estimation with weighted samples is the main foundation of all adaptive importance sampling algorithms. Classically, a target distribution is approximated either by a non-parametric model or within a parametric family. However, these models suffer from the curse of dimensionality or from their lack of flexibility. In this contribution, we suggest to use as the approximating model a distribution parameterised by a variational autoencoder. We extend the existing framework to the case of weighted samples by introducing a new objective function. The flexibility of the obtained family of distributions makes it as expressive as a non-parametric model, and despite the very high number of parameters to estimate, this family is much more efficient in high dimension than the classical Gaussian or Gaussian mixture families. Moreover, in order to add flexibility to the model and to be able to learn multimodal distributions, we consider a learnable prior distribution for the variational autoencoder latent variables. We also introduce a new pre-training procedure for the variational autoencoder to find good starting weights of the neural networks to prevent as much as possible the posterior collapse phenomenon to happen. At last, we explicit how the resulting distribution can be combined with importance sampling, and we exploit the proposed procedure in existing adaptive importance sampling algorithms to draw points from a target distribution and to estimate a rare event probability in high dimension on two multimodal problems. | 翻訳日:2023-10-16 12:21:22 公開日:2023-10-13 |
# Tikuna:Ethereumブロックチェーンネットワークのセキュリティ監視システム Tikuna: An Ethereum Blockchain Network Security Monitoring System ( http://arxiv.org/abs/2310.09193v1 ) ライセンス: Link先を確認 | Andres Gomez Ramirez, Loui Al Sardy and Francis Gomez Ramirez | (参考訳) ブロックチェーンのセキュリティは、多くの業界に影響を及ぼすにつれ、今日のサイバー空間でますます重要になっている。
本稿では,ブロックチェーンの低レベル層,特にノード間の通信と情報共有を可能にするp2pネットワークの保護に注目する。
p2pネットワーク層は、distributed denial of service(ddos)、eclipse攻撃、sybil攻撃など、いくつかの種類の攻撃に対して脆弱である可能性がある。
この層は、従来のp2pネットワークから受け継がれた脅威になりがちであり、これらのリスクを減らすために、データを集め、ネットワークの動作から洞察を抽出して分析し、理解する必要がある。
ethereumブロックチェーンp2pネットワークの潜在的な攻撃を監視し,検出するオープンソースツールであるtikunaを,初期段階で紹介する。
Tikunaは、リカレントニューラルネットワーク(RNN)に基づく教師なしLong Short-Term Memory(LSTM)メソッドを使用して、攻撃を検出し、ユーザに警告する。
実験結果から,提案手法は,eclipse攻撃や隠密フラッシュ攻撃など,ethereumブロックチェーンp2pネットワーク層をターゲットにした攻撃を高精度に検出および分類することで,検出性能を大幅に向上することが示唆された。
我々の研究によると、TikunaはオペレーターがEthereumバリデータやより広範なP2Pネットワークの状態を効率的に監視し、保護するための貴重なセキュリティツールである。 Blockchain security is becoming increasingly relevant in today's cyberspace as it extends its influence in many industries. This paper focuses on protecting the lowest level layer in the blockchain, particularly the P2P network that allows the nodes to communicate and share information. The P2P network layer may be vulnerable to several families of attacks, such as Distributed Denial of Service (DDoS), eclipse attacks, or Sybil attacks. This layer is prone to threats inherited from traditional P2P networks, and it must be analyzed and understood by collecting data and extracting insights from the network behavior to reduce those risks. We introduce Tikuna, an open-source tool for monitoring and detecting potential attacks on the Ethereum blockchain P2P network, at an early stage. Tikuna employs an unsupervised Long Short-Term Memory (LSTM) method based on Recurrent Neural Network (RNN) to detect attacks and alert users. Empirical results indicate that the proposed approach significantly improves detection performance, with the ability to detect and classify attacks, including eclipse attacks, Covert Flash attacks, and others that target the Ethereum blockchain P2P network layer, with high accuracy. Our research findings demonstrate that Tikuna is a valuable security tool for assisting operators to efficiently monitor and safeguard the status of Ethereum validators and the wider P2P network | 翻訳日:2023-10-16 12:20:58 公開日:2023-10-13 |
# グラフ蒸留はビジョンデータセットと同等に見えるか? Does Graph Distillation See Like Vision Dataset Counterpart? ( http://arxiv.org/abs/2310.09192v1 ) ライセンス: Link先を確認 | Beining Yang, Kai Wang, Qingyun Sun, Cheng Ji, Xingcheng Fu, Hao Tang, Yang You, Jianxin Li | (参考訳) 大規模グラフのトレーニングはグラフ表現学習で目覚ましい成果を上げているが、そのコストとストレージはますます関心を集めている。
既存のグラフ凝縮法は主に、元のグラフから構造情報の影響を見越しながら、縮合グラフの特徴行列を最適化することに焦点を当てている。
構造情報の影響を調べるために,スペクトル領域の解析を行い,過去の研究におけるラプラシアンエネルギー分布(led)の変化を実証的に同定する。
このようなシフトは、アーキテクチャ全体の一般化や、異常検出やリンク予測を含む特定のタスクのパフォーマンス低下につながる。
本稿では, 合成データの生成に元の構造情報をブロードキャストする新しい構造ブロードキャストグラフデータセット蒸留(sgdd)方式を提案する。
理論的には、SGDDによる合成グラフは、以前のものよりも小さなLEDシフトを持つことが期待され、アーキテクチャ間設定と特定のタスクの両方において優れたパフォーマンスをもたらす。
提案したSGDDを9つのデータセットにまたがって検証し、YelpChiデータセットのように、グラフのスケールに1000倍の節約が可能な元のグラフデータセット上でのトレーニングの精度を98.6%維持する。
さらに,9つのデータセットを横断するledシフトの17.6%から31.4%の削減が存在することを実証的に評価した。
大規模な実験と分析により提案した設計の有効性と必要性が検証された。
コードはgithubリポジトリで入手できる。 https://github.com/ringbdstack/sgdd。 Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have attracted increasing concerns. Existing graph condensation methods primarily focus on optimizing the feature matrices of condensed graphs while overlooking the impact of the structure information from the original graphs. To investigate the impact of the structure information, we conduct analysis from the spectral domain and empirically identify substantial Laplacian Energy Distribution (LED) shifts in previous works. Such shifts lead to poor performance in cross-architecture generalization and specific tasks, including anomaly detection and link prediction. In this paper, we propose a novel Structure-broadcasting Graph Dataset Distillation (SGDD) scheme for broadcasting the original structure information to the generation of the synthetic one, which explicitly prevents overlooking the original structure information. Theoretically, the synthetic graphs by SGDD are expected to have smaller LED shifts than previous works, leading to superior performance in both cross-architecture settings and specific tasks. We validate the proposed SGDD across 9 datasets and achieve state-of-the-art results on all of them: for example, on the YelpChi dataset, our approach maintains 98.6% test accuracy of training on the original graph dataset with 1,000 times saving on the scale of the graph. Moreover, we empirically evaluate there exist 17.6% ~ 31.4% reductions in LED shift crossing 9 datasets. Extensive experiments and analysis verify the effectiveness and necessity of the proposed designs. The code is available in the GitHub repository: https://github.com/RingBDStack/SGDD. | 翻訳日:2023-10-16 12:20:34 公開日:2023-10-13 |
# 1000以上の原子量子ビットを持つ超電荷2次元ツイーザアレイ Supercharged two-dimensional tweezer array with more than 1000 atomic qubits ( http://arxiv.org/abs/2310.09191v1 ) ライセンス: Link先を確認 | Lars Pause, Lukas Sturm, Marcel Mittenb\"uhler, Stephan Amann, Tilman Preuschoff, Dominik Sch\"affner, Malte Schlosser, Gerhard Birkl | (参考訳) 本稿では,1000量子ビットを超える大規模量子処理アーキテクチャの実現について報告する。
複数のマイクロレンズ生成tweezerアレイを独立レーザ源で操作することにより、アロキャタブル量子ビット数のレーザパワー制限を解消できる。
すでに2つの配列があり、平均1167(46)の単一原子量子システムを持つ2d構成を実装している。
2つの配列間の原子の移動は高い効率で達成される。
したがって、二次配列から原子を持つ量子処理単位に指定された1つの配列を重ね合わせると、量子ビット数と初期充填率を大幅に増加させる。
これにより、達成可能なターゲットパターンのサイズと成功確率を大幅に拡大し、最大441キュービットのクラスターの欠陥のない組立を、数十回の検出サイクルでほぼ均一な充填率で持続的に安定化できることを示した。
提案手法は,Rydberg状態の量子シミュレーション,フォールトトレラントな普遍量子計算,量子センシング,量子気象学に即時適用することで,高度にスケーラブルな量子レジスタの構成可能なジオメトリを容易にし,中性原子量子情報科学の基盤となる。 We report on the realization of a large-scale quantum-processing architecture surpassing the tier of 1000 atomic qubits. By tiling multiple microlens-generated tweezer arrays, each operated by an independent laser source, we can eliminate laser-power limitations in the number of allocatable qubits. Already with two separate arrays, we implement combined 2D configurations with a mean number of 1167(46) single-atom quantum systems. The transfer of atoms between the two arrays is achieved with high efficiency. Thus, supercharging one array designated as quantum processing unit with atoms from the secondary array significantly increases the number of qubits and the initial filling fraction. This drastically enlarges attainable target-pattern sizes and success probabilities allowing us to demonstrate the defect-free assembly of clusters of up to 441 qubits with persistent stabilization at near-unity filling fraction over tens of detection cycles. The presented method substantiates neutral atom quantum information science by facilitating configurable geometries of highly scalable quantum registers with immediate application in Rydberg-state mediated quantum simulation, fault-tolerant universal quantum computation, quantum sensing, and quantum metrology. | 翻訳日:2023-10-16 12:20:05 公開日:2023-10-13 |
# 1つの重成分をもつ2成分系の断熱摂動理論 Adiabatic perturbation theory for two-component systems with one heavy component ( http://arxiv.org/abs/2310.09189v1 ) ライセンス: Link先を確認 | Ryan Requist | (参考訳) 2成分量子系の重成分の運動エネルギーに関する系統的断熱摂動理論を導入する。
重い系の有効なシュル=オディンガー方程式は、逆質量の第二階に導かれる。
これは、エルミート質量テンソルと複素値ベクトルポテンシャルを持つ新しい形の運動エネルギー作用素を含む。
有効方程式のすべてのポテンシャルは、光系の固有状態の和を評価することなく計算することができる。
この理論の最も有能な応用は電子と核の系である。
理論の精度は二原子分子のモデルで数値的に検証され、線形振動モデルで解析的に検証される。 A systematic adiabatic perturbation theory with respect to the kinetic energy of the heavy component of a two-component quantum system is introduced. The effective Schr\"odinger equation for the heavy system is derived to second order in the inverse mass. It contains a new form of kinetic energy operator with a Hermitian mass tensor and a complex-valued vector potential. All of the potentials in the effective equation can be computed without having to evaluate sums over the eigenstates of the light system. The most salient potential application of the theory is to systems of electrons and nuclei. The accuracy of the theory is verified numerically in a model of a diatomic molecule and analytically in a linear vibronic model. | 翻訳日:2023-10-16 12:19:44 公開日:2023-10-13 |
# pre: フェデレーション学習で見過ごされる情報をリアクションするためにパーソナライズされた事前 PRIOR: Personalized Prior for Reactivating the Information Overlooked in Federated Learning ( http://arxiv.org/abs/2310.09183v1 ) ライセンス: Link先を確認 | Mingjia Shi, Yuhao Zhou, Kai Wang, Huaizheng Zhang, Shudong Huang, Qing Ye, Jiangcheng Lv | (参考訳) 古典的なフェデレーション学習(fl)は、プライバシ保護のためのデータを共有することなく、機械学習モデルのトレーニングを可能にするが、異種データ特性は、ローカライズモデルのパフォーマンスを低下させる。
パーソナライズドfl(pfl)は、ローカルデータのトレーニングを通じてグローバルモデルからパーソナライズされたモデルを合成することで、これに対処する。
このようなグローバルモデルは、クライアントがサンプリングした特定の情報を見落としてしまう可能性がある。
本稿では,PFLにおける不完全情報問題を軽減するために,各クライアントのグローバルモデルにパーソナライズされた事前知識を注入する手法を提案する。
提案手法の中心となるフレームワークは,Bregman Divergence (pFedBreD) を用いた PFL であり,Bregman divergence によって正規化された局所目的関数からパーソナライズされた事前を分離し,パーソナライズされたシナリオにおける適応性を高める。
また,鏡面降下 (RMD) を緩和し,予め明示的に抽出し,任意の戦略を提供する。
さらに、pFedBreDは収束解析によってバックアップされる。
十分な実験により、我々の手法は5つのデータセット上で最先端のパフォーマンスに到達し、8つのベンチマークで最大3.5%の精度で他の手法を上回ります。
広範な分析により,提案する設計の堅牢性と必要性が検証された。 Classical federated learning (FL) enables training machine learning models without sharing data for privacy preservation, but heterogeneous data characteristic degrades the performance of the localized model. Personalized FL (PFL) addresses this by synthesizing personalized models from a global model via training on local data. Such a global model may overlook the specific information that the clients have been sampled. In this paper, we propose a novel scheme to inject personalized prior knowledge into the global model in each client, which attempts to mitigate the introduced incomplete information problem in PFL. At the heart of our proposed approach is a framework, the PFL with Bregman Divergence (pFedBreD), decoupling the personalized prior from the local objective function regularized by Bregman divergence for greater adaptability in personalized scenarios. We also relax the mirror descent (RMD) to extract the prior explicitly to provide optional strategies. Additionally, our pFedBreD is backed up by a convergence analysis. Sufficient experiments demonstrate that our method reaches the state-of-the-art performances on 5 datasets and outperforms other methods by up to 3.5% across 8 benchmarks. Extensive analyses verify the robustness and necessity of proposed designs. | 翻訳日:2023-10-16 12:19:35 公開日:2023-10-13 |
# 相関の崩壊からギブス状態の局所性と安定性へ From decay of correlations to locality and stability of the Gibbs state ( http://arxiv.org/abs/2310.09182v1 ) ライセンス: Link先を確認 | \'Angela Capel, Massimo Moscolari, Stefan Teufel, Tom Wessel | (参考訳) 本稿では,ギブス状態が相関関係の崩壊を満足すると,局所摂動がギブス状態にのみ影響を及ぼすという意味で安定であり,局所的,すなわち局所的不明瞭性を満たすことを示す。
これらの含意は任意の次元において真であり、ハミルトニアンの局所性のみを必要とし、リーブ・ロビンソン境界に依存する。
そして、この結果は、相関の減衰が知られている高温度での短距離相互作用を持つ任意の次元の量子スピン系に明示的に適用する。
さらに,変換不変かつ指数的に減衰する相互作用を持つ有限一次元スピンチェーンのギブス状態に適用し,有限次元相互作用の極限でゼロとなる閾値温度以上で相関の減衰が真であることを示す。
我々の証明は、ギブス状態に対する量子信念伝播の局所性特性の詳細な解析に基づいている。 In this paper we show that whenever a Gibbs state satisfies decay of correlations, then it is stable, in the sense that local perturbations influence the Gibbs state only locally, and it is local, namely it satisfies local indistinguishability. These implications hold true in any dimensions, only require locality of the Hamiltonian and rely on Lieb-Robinson bounds. Then, we explicitly apply our results to quantum spin systems in any dimension with short-range interactions at high enough temperature, where decay of correlations is known to hold. Furthermore, our results are applied to Gibbs states of finite one-dimensional spin chains with translation-invariant and exponentially decaying interactions, for which we also show that decay of correlations holds true above a threshold temperature that goes to zero in the limit of finite-range interactions. Our proofs are based on a detailed analysis of the locality properties of the quantum belief propagation for Gibbs states. | 翻訳日:2023-10-16 12:19:07 公開日:2023-10-13 |
# CTRモデル: CTR予測に言語モデルを適用するための強力なプロンプト生成器 ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ( http://arxiv.org/abs/2310.09234v1 ) ライセンス: Link先を確認 | Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, Weinan Zhang | (参考訳) クリックスルー率(CTR)予測は、様々なインターネットアプリケーションにとってますます不可欠になっている。
従来のCTRモデルは、マルチフィールド分類データをワンホット符号化によりID特徴に変換し、特徴間の協調信号を抽出する。
このようなパラダイムは意味情報損失の問題に悩まされる。
別の研究は、入力データをハードプロンプトテンプレートでテキスト文に変換することで、ctr予測のための事前学習言語モデル(plm)の可能性を探る。
セマンティクス信号は保存されるが、一般的には、大きなモデルサイズによってもたらされる許容できない推論オーバーヘッドは言うまでもなく、協調的な情報(機能インタラクションや純粋なid機能など)を捉えることができない。
本稿では,CTR推定における意味的知識と協調的知識の両方をモデル化することを目的とした。
両者の利点を享受し、ギャップを縮めるために、新しいモデル非依存フレームワーク(clickprompt)を提案し、plmのインタラクション対応ソフトプロンプトを生成するためにctrモデルを組み込む。
本研究では,PA-MLMプリトレーニングタスクを設計し,PLMは言語コンテキストに基づいてマスク付きトークンを復元し,CTRモデルによって生成されたソフトプロンプトを復元する。
IDとテキスト機能からの協調的および意味的な知識は、プロンプトインターフェースを介して明示的に整列され、相互作用される。
そして、優れた性能を得るためにCTRモデルをPLMで調整するか、あるいは推論効率のためにPLMなしでCTRモデルを調整できる。
4つの実世界のデータセットの実験は、既存のベースラインと比較してClickPromptの有効性を検証する。 Click-through rate (CTR) prediction has become increasingly indispensable for various Internet applications. Traditional CTR models convert the multi-field categorical data into ID features via one-hot encoding, and extract the collaborative signals among features. Such a paradigm suffers from the problem of semantic information loss. Another line of research explores the potential of pretrained language models (PLMs) for CTR prediction by converting input data into textual sentences through hard prompt templates. Although semantic signals are preserved, they generally fail to capture the collaborative information (e.g., feature interactions, pure ID features), not to mention the unacceptable inference overhead brought by the huge model size. In this paper, we aim to model both the semantic knowledge and collaborative knowledge for accurate CTR estimation, and meanwhile address the inference inefficiency issue. To benefit from both worlds and close their gaps, we propose a novel model-agnostic framework (i.e., ClickPrompt), where we incorporate CTR models to generate interaction-aware soft prompts for PLMs. We design a prompt-augmented masked language modeling (PA-MLM) pretraining task, where PLM has to recover the masked tokens based on the language context, as well as the soft prompts generated by CTR model. The collaborative and semantic knowledge from ID and textual features would be explicitly aligned and interacted via the prompt interface. Then, we can either tune the CTR model with PLM for superior performance, or solely tune the CTR model without PLM for inference efficiency. Experiments on four real-world datasets validate the effectiveness of ClickPrompt compared with existing baselines. | 翻訳日:2023-10-16 12:11:54 公開日:2023-10-13 |
# データからベイズネットワークの高速かつ効率的な学習:知識発見と因果性 Fast & Efficient Learning of Bayesian Networks from Data: Knowledge Discovery and Causality ( http://arxiv.org/abs/2310.09222v1 ) ライセンス: Link先を確認 | Minn Sein, Fu Shunkai | (参考訳) 構造学習はベイズネットワーク(bns)にとって因果関係を解明し、不確実性下での知識の発見、予測、推論、意思決定を可能にするため不可欠である。
PCアルゴリズムに基づく2つの新しいアルゴリズムFSBNとSSBNは、データから因果ネットワーク構造を学習するために局所探索戦略と条件独立テストを採用する。
彼らは、追加のトポロジ情報を推論し、条件セットを優先順位付けし、検索を即時かつ効率的に終了するためにd分離を組み込む。
FSBNは最大52%の計算コスト削減を実現し、SSBNは200ノードネットワークに対して72%の大幅な削減を実現している。
SSBNは知的戦略によりさらなる効率向上を示す。
実験により, 2つのアルゴリズムがPCアルゴリズムの帰納的品質と一致し, 計算コストが大幅に削減された。
これにより、計算負荷を低減しつつ、解釈性と適応性を提供し、ビッグデータ分析のさまざまな用途に有用である。 Structure learning is essential for Bayesian networks (BNs) as it uncovers causal relationships, and enables knowledge discovery, predictions, inferences, and decision-making under uncertainty. Two novel algorithms, FSBN and SSBN, based on the PC algorithm, employ local search strategy and conditional independence tests to learn the causal network structure from data. They incorporate d-separation to infer additional topology information, prioritize conditioning sets, and terminate the search immediately and efficiently. FSBN achieves up to 52% computation cost reduction, while SSBN surpasses it with a remarkable 72% reduction for a 200-node network. SSBN demonstrates further efficiency gains due to its intelligent strategy. Experimental studies show that both algorithms match the induction quality of the PC algorithm while significantly reducing computation costs. This enables them to offer interpretability and adaptability while reducing the computational burden, making them valuable for various applications in big data analytics. | 翻訳日:2023-10-16 12:11:27 公開日:2023-10-13 |
# 潜在セマンティック特徴共存による甲状腺結節の超音波画像分割 Ultrasound Image Segmentation of Thyroid Nodule via Latent Semantic Feature Co-Registration ( http://arxiv.org/abs/2310.09221v1 ) ライセンス: Link先を確認 | Xuewei Li, Yaqiao Zhu, Jie Gao, Xi Wei, Ruixuan Zhang, Yuan Tian, and Mei Yu | (参考訳) 甲状腺超音波画像における結節の分節は甲状腺癌の検出と治療において重要な役割を担っている。
しかし, 医療用画像セグメンテーションの分野において, 医療用画像セグメンテーションの分野において, 専門家レベルの精度をすでに実証している自動セグメンテーションモデルは, 臨床に現実的な環境に適用した場合の一般化性能の弱さにより, 精度が低下していることが判明した。
そこで本研究では,甲状腺結節分節の枠組みであるASTNを提案する。
甲状腺超音波画像における結節の同時登録を実現するために、アトラス及び対象画像から潜伏意味情報を抽出し、奥行き特性を利用して、解剖学的構造の整合性を確保し、異なる装置による画像の全体的差異によるセグメンテーションへの影響を低減する。
さらに,共登録の難しさを軽減するためのアトラス選択アルゴリズムも提供する。
提案手法により,各機器のデータセットから得られた評価結果から,高いセグメンテーション精度を維持しつつ,モデル一般化が大幅に改善されていることが示された。 Segmentation of nodules in thyroid ultrasound imaging plays a crucial role in the detection and treatment of thyroid cancer. However, owing to the diversity of scanner vendors and imaging protocols in different hospitals, the automatic segmentation model, which has already demonstrated expert-level accuracy in the field of medical image segmentation, finds its accuracy reduced as the result of its weak generalization performance when being applied in clinically realistic environments. To address this issue, the present paper proposes ASTN, a framework for thyroid nodule segmentation achieved through a new type co-registration network. By extracting latent semantic information from the atlas and target images and utilizing in-depth features to accomplish the co-registration of nodules in thyroid ultrasound images, this framework can ensure the integrity of anatomical structure and reduce the impact on segmentation as the result of overall differences in image caused by different devices. In addition, this paper also provides an atlas selection algorithm to mitigate the difficulty of co-registration. As shown by the evaluation results collected from the datasets of different devices, thanks to the method we proposed, the model generalization has been greatly improved while maintaining a high level of segmentation accuracy. | 翻訳日:2023-10-16 12:11:09 公開日:2023-10-13 |
# 『Kelly is a Warm Person, Joseph is a Role Model』 LLM-Generated Reference Letters におけるジェンダーバイアス "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters ( http://arxiv.org/abs/2310.09219v1 ) ライセンス: Link先を確認 | Yixin Wan, George Pu, Jiao Sun, Aparna Garimella, Kai-Wei Chang, Nanyun Peng | (参考訳) 生成言語モデルが進歩するにつれて、ユーザーはLarge Language Models (LLMs) を使用して、レコメンデーションレターなどの専門文書など、さまざまなタイプのコンテンツの作成を支援し始めた。
その利便性にもかかわらず、これらのアプリケーションは前例のない公正な懸念をもたらす。
生成されたレファレンスレターは、専門家や学術的なシナリオでユーザーが直接利用する可能性があるため、女性応募者の成功率の低下など、直接的な社会的害を引き起こす可能性がある。
そのため、将来的な緩和・監視のための現実のユースケースにおいて、公平性の問題や関連する害を包括的に研究することが急務である。
本稿では,llm生成基準文字における性別バイアスを批判的に検討する。
社会科学の知見に触発されて,LLM生成文字における性バイアスを2次元で表現する評価手法を設計した。
さらに,モデル生成文書の幻覚バイアスと定義する,モデル収集コンテンツにおけるバイアス増幅を別々に分析することで,バイアス伝搬の程度を考察する。
本研究は,ChatGPT,Alpaca,Vicuna,StableLMの4つのLLMのベンチマーク評価により,LLM生成レコメンデーションレコメンデーションレターに有意な性差が認められた。
LLM作成専門文書における偏見の認識の重要性と優位性について考察した。 As generative language models advance, users have started to utilize Large Language Models (LLMs) to assist in writing various types of content, including professional documents such as recommendation letters. Despite their convenience, these applications introduce unprecedented fairness concerns. As generated reference letters might be directly utilized by users in professional or academic scenarios, they have the potential to cause direct social harms, such as lowering success rates for female applicants. Therefore, it is imminent and necessary to comprehensively study fairness issues and associated harms in such real-world use cases for future mitigation and monitoring. In this paper, we critically examine gender bias in LLM-generated reference letters. Inspired by findings in social science, we design evaluation methods to manifest gender biases in LLM-generated letters through 2 dimensions: biases in language style and biases in lexical content. Furthermore, we investigate the extent of bias propagation by separately analyze bias amplification in model-hallucinated contents, which we define to be the hallucination bias of model-generated documents. Through benchmarking evaluation on 4 popular LLMs, including ChatGPT, Alpaca, Vicuna and StableLM, our study reveals significant gender biases in LLM-generated recommendation letters. Our findings further point towards the importance and imminence to recognize biases in LLM-generated professional documents. | 翻訳日:2023-10-16 12:10:47 公開日:2023-10-13 |
# 古典力学から量子力学への同値原理の遵守と違反 Adherence and violation of the equivalence principle from classical to quantum mechanics ( http://arxiv.org/abs/2310.09218v1 ) ライセンス: Link先を確認 | Joseph Balsells and Martin Bojowald | (参考訳) 量子力学における同値原理の適用性に関する調査は、様々な結論とともに多くの形式を採っている。
ここで、波動パケットの質量中心とより高い量子ゆらぎの観点からの動的半古典的記述は、重力自由落下における量子粒子の場合に適用される。
この解析は、不確実性原理を強制する効果的なポテンシャルを通じて、量子重力力学における質量依存の起源を直感的に説明できる。
この可能性には2つの意味があります
(i)波束の幅と広がりをエンコードする最低次量子ゆらぎは、観測が質量依存である不確実性関係に従う。
(ii)不均質な重力場潮流効果において、質量運動の中心は量子揺らぎに結合する。
この組み合わせ効果は、質量依存に基づく弱同値原理のいくつかの概念がどのように破られるかを明確に示している。
この違反の大きさは、現在のeotvoとクロックベースの戻り時間実験の感度にある。 Investigation into the applicability of the equivalence principle in quantum mechanics has taken many forms, with varying conclusions. Here, a dynamical semi-classical description of a wave packet in terms of its center of mass and higher quantum fluctuations is applied to the case of a quantum particle in gravitational free fall. The analysis provides an intuitive account of the origin of mass-dependence in quantum-gravitational dynamics through an effective potential that enforces the uncertainty principle. This potential has two implications: (i) The lowest order quantum fluctuations encoding the width and spreading of the wave packet obey an uncertainty relation whose observance is mass-dependent. (ii) In an inhomogeneous gravitational field tidal effects couple the center of mass motion to the quantum fluctuations. The combined effect results in a clear demonstration of how some conceptions of the weak equivalence principle, based on mass dependence, are violated. The size of this violation is within sensitivities of current Eotvos and clock-based return time experiments. | 翻訳日:2023-10-16 12:10:18 公開日:2023-10-13 |
# 多国籍AGIコンソーシアム(MAGIC):AIに関する国際調整の提案 Multinational AGI Consortium (MAGIC): A Proposal for International Coordination on AI ( http://arxiv.org/abs/2310.09217v1 ) ライセンス: Link先を確認 | Jason Hausenloy, Andrea Miotti, Claire Dennis | (参考訳) 本稿では,先進人工知能(AI)の実在リスクを軽減するため,多国間汎用人工知能コンソーシアム(MAGIC)を提案する。
MAGICは、先進的なAIを開発することが許される世界で唯一の機関であり、他の先進的なAI開発に署名するメンバーによって世界的モラトリアムを通じて強制される。
MAGICは排他的で、安全を重視し、高度に安全であり、加盟国によって総括的に支持され、署名者間で平等に利益が分配された。
MAGICは、狭義のAIモデルを繁栄させると同時に、汎用システムのミスアライメント、ローグ、ブレークアウト、アウトアウトの可能性を著しく低減する。
我々は、モラトリアムの実施の政治的実現可能性や、高容量AGIトレーニングの実施を禁止するために必要な特定の立法戦略や規則に対処することができない。
そこでは,グローバルガバナンス体制としてのMAGICが,先進的なAIの長期的かつ安全な規制の基盤となる,未来に対する肯定的なビジョンを提案する。 This paper proposes a Multinational Artificial General Intelligence Consortium (MAGIC) to mitigate existential risks from advanced artificial intelligence (AI). MAGIC would be the only institution in the world permitted to develop advanced AI, enforced through a global moratorium by its signatory members on all other advanced AI development. MAGIC would be exclusive, safety-focused, highly secure, and collectively supported by member states, with benefits distributed equitably among signatories. MAGIC would allow narrow AI models to flourish while significantly reducing the possibility of misaligned, rogue, breakout, or runaway outcomes of general-purpose systems. We do not address the political feasibility of implementing a moratorium or address the specific legislative strategies and rules needed to enforce a ban on high-capacity AGI training runs. Instead, we propose one positive vision of the future, where MAGIC, as a global governance regime, can lay the groundwork for long-term, safe regulation of advanced AI. | 翻訳日:2023-10-16 12:10:06 公開日:2023-10-13 |
# 拡散モデルによる見えない画像合成 Unseen Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2310.09213v1 ) ライセンス: Link先を確認 | Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky and Yan Yan | (参考訳) 生成分野における現在のトレンドは、より大きなモデルに向けて拡大し、一般化されたドメイン表現のためのトレーニングデータを増やす一方で、追加のトレーニングなしで未認識のドメインイメージを合成することで、この作業の反対方向に進んでいます。
単一ドメインデータセット上では,事前学習および凍結脱ノイズ拡散確率モデル(ddpms)を用いて,潜伏サンプリングと幾何最適化を行う。
我々のキーとなる観察は、単ドメイン画像のみに事前訓練されたDDPMは、双方向の決定論的拡散とデノベーショントラジェクトリーの後に、反転潜時符号化から任意の画像を再構成する十分な表現能力を備えています。
このことは、デノナイジング・チェーンに沿った潜在空間の未確認画像領域からのOODサンプルの統計的および幾何学的挙動を調査する動機となる。
特に、逆 OOD サンプルは、中間潜伏空間における元の In-Domain (ID) サンプルと区別可能なガウスアンも確立し、直接サンプリングすることができることを理論的かつ実証的に示している。
未確認部分空間の幾何学的領域固有およびモデル依存情報(例:サンプルワイド距離と角度)を用いて、推定ガウス先行推定値からサンプルOODラテントエンコーディングをさらに最適化する。
本研究では,各データセット(AFHQ, CelebA-HQ, LSUN-Church, LSUN-Bedroom)の事前学習拡散モデル(DDPM, iDDPM)を用いて,この新たな視点の有効性を実証し,拡散モデルのデータ合成一般化能力を再考する。 While the current trend in the generative field is scaling up towards larger models and more training data for generalized domain representations, we go the opposite direction in this work by synthesizing unseen domain images without additional training. We do so via latent sampling and geometric optimization using pre-trained and frozen Denoising Diffusion Probabilistic Models (DDPMs) on single-domain datasets. Our key observation is that DDPMs pre-trained even just on single-domain images are already equipped with sufficient representation abilities to reconstruct arbitrary images from the inverted latent encoding following bi-directional deterministic diffusion and denoising trajectories. This motivates us to investigate the statistical and geometric behaviors of the Out-Of-Distribution (OOD) samples from unseen image domains in the latent spaces along the denoising chain. Notably, we theoretically and empirically show that the inverted OOD samples also establish Gaussians that are distinguishable from the original In-Domain (ID) samples in the intermediate latent spaces, which allows us to sample from them directly. Geometrical domain-specific and model-dependent information of the unseen subspace (e.g., sample-wise distance and angles) is used to further optimize the sampled OOD latent encodings from the estimated Gaussian prior. We conduct extensive analysis and experiments using pre-trained diffusion models (DDPM, iDDPM) on different datasets (AFHQ, CelebA-HQ, LSUN-Church, and LSUN-Bedroom), proving the effectiveness of this novel perspective to explore and re-think the diffusion models' data synthesis generalization ability. | 翻訳日:2023-10-16 12:09:47 公開日:2023-10-13 |
# 正規化に基づく順序数量化法 Regularization-Based Methods for Ordinal Quantification ( http://arxiv.org/abs/2310.09210v1 ) ライセンス: Link先を確認 | Mirko Bunse, Alejandro Moreo, Fabrizio Sebastiani, Martin Senz | (参考訳) 近年,未ラベルデータ項目の集合におけるクラス有病率の予測値のトレーニングタスクである量子化が注目されている。
しかし、ほとんどの定量化研究は、クラスが順序付けられていない二進問題と多進問題のためのアルゴリズムの開発に集中している。
ここでは、順序数の場合、すなわち n>2 のクラスの集合上で全順序が定義される場合について研究する。
私たちはこの分野に3つの主要な貢献をします。
まず、既に利用可能なものの不整合を克服する、順序量子化(OQ)研究のための2つのデータセットを作成し、作成する。
第2に,これまでの文献で提案されている最も重要なoqアルゴリズムを実験的に比較する。
この目的のために、我々は、データマイニングや天体物理学など、非常に異なる研究分野の著者によって提案されたアルゴリズムをまとめる。
第3に,既存のアルゴリズムよりも優れる正規化oqアルゴリズムの新たなクラスを提案する。
このパフォーマンス向上の鍵は、我々の正規化が、順序分布が実際には滑らかな傾向があると仮定して、順序的に予測できないことを防いでいることです。
いくつかの実世界のアプリケーションでこの仮定を非公式に検証します。 Quantification, i.e., the task of training predictors of the class prevalence values in sets of unlabeled data items, has received increased attention in recent years. However, most quantification research has concentrated on developing algorithms for binary and multiclass problems in which the classes are not ordered. Here, we study the ordinal case, i.e., the case in which a total order is defined on the set of n>2 classes. We give three main contributions to this field. First, we create and make available two datasets for ordinal quantification (OQ) research that overcome the inadequacies of the previously available ones. Second, we experimentally compare the most important OQ algorithms proposed in the literature so far. To this end, we bring together algorithms proposed by authors from very different research fields, such as data mining and astrophysics, who were unaware of each others' developments. Third, we propose a novel class of regularized OQ algorithms, which outperforms existing algorithms in our experiments. The key to this gain in performance is that our regularization prevents ordinally implausible estimates, assuming that ordinal distributions tend to be smooth in practice. We informally verify this assumption for several real-world applications. | 翻訳日:2023-10-16 12:09:14 公開日:2023-10-13 |
# siamaf:心電図およびppg信号からの共有情報学習によるロバスト心房細動検出 SiamAF: Learning Shared Information from ECG and PPG Signals for Robust Atrial Fibrillation Detection ( http://arxiv.org/abs/2310.09203v1 ) ライセンス: Link先を確認 | Zhicheng Guo, Cheng Ding, Duc H. Do, Amit Shah, Randall J. Lee, Xiao Hu, Cynthia Rudin | (参考訳) 心房細動 (AF) は心不整脈の最も一般的なタイプである。
脳卒中、心不全、その他の心血管合併症のリスクの増加と関連があるが、臨床的に沈黙することができる。
ウェアラブルを用いたパッシブAFモニタリングは、AFに関する有害な臨床結果を減らすのに役立つかもしれない。
ノイズの多いウェアラブルデータでAFを検出することは大きな課題となり、様々なディープラーニング技術が出現する。
これまでのディープラーニングモデルは、心電図(ecg)またはフォトプレチモグラフィ(ppg)信号の1つのモダリティから学習する。
しかし、ディープラーニングモデルは、一般化可能な機能を学ぶのに苦労することが多く、ノイズによる汚職の影響を受けやすい機能に依存しているため、特定のシナリオ、特に低品質な信号において、準最適パフォーマンスにつながる。
ウェアラブルとベッドサイドモニターからECGとPSGの信号ペアが利用可能になるにつれて、我々は新しいSiamAFアプローチを提案し、新しいSiameseネットワークアーキテクチャと共同学習損失関数を活用してECGとPGの信号から共有情報を学ぶ。
推定時,提案モデルはPSGまたはECGからAFを予測することができ,3つの外部テストセットのベースライン手法より優れている。
新たなアーキテクチャ設計の結果、医学的に関連する特徴を学習します。
提案したモデルは、従来の学習体系に匹敵するパフォーマンスを達成しつつ、トレーニングラベルをはるかに少なくし、手動ラベリングへの依存を減らすための潜在的アプローチを提供する。 Atrial fibrillation (AF) is the most common type of cardiac arrhythmia. It is associated with an increased risk of stroke, heart failure, and other cardiovascular complications, but can be clinically silent. Passive AF monitoring with wearables may help reduce adverse clinical outcomes related to AF. Detecting AF in noisy wearable data poses a significant challenge, leading to the emergence of various deep learning techniques. Previous deep learning models learn from a single modality, either electrocardiogram (ECG) or photoplethysmography (PPG) signals. However, deep learning models often struggle to learn generalizable features and rely on features that are more susceptible to corruption from noise, leading to sub-optimal performances in certain scenarios, especially with low-quality signals. Given the increasing availability of ECG and PPG signal pairs from wearables and bedside monitors, we propose a new approach, SiamAF, leveraging a novel Siamese network architecture and joint learning loss function to learn shared information from both ECG and PPG signals. At inference time, the proposed model is able to predict AF from either PPG or ECG and outperforms baseline methods on three external test sets. It learns medically relevant features as a result of our novel architecture design. The proposed model also achieves comparable performance to traditional learning regimes while requiring much fewer training labels, providing a potential approach to reduce future reliance on manual labeling. | 翻訳日:2023-10-16 12:08:55 公開日:2023-10-13 |
# 固有ベイシスマッチングによるグラフ凝縮 Graph Condensation via Eigenbasis Matching ( http://arxiv.org/abs/2310.09202v1 ) ライセンス: Link先を確認 | Yang Liu, Deyu Bo, Chuan Shi | (参考訳) グラフデータの増加は、様々なグラフ関連アプリケーションでの有効性にもかかわらず、グラフニューラルネットワーク(gnns)の効率とスケーラビリティに要求を課す。
近年,新しいグラフ凝縮法 (GC) は,データの観点からGNNの計算コストの低減に重点を置いている。
これは、実際の大きなグラフをはるかに小さな合成グラフに置き換えることを目的としており、両方のグラフでトレーニングされたGNNは同等のパフォーマンスを示す。
しかし,本研究では,既存のGC手法が一般化に乏しいこと,すなわち,同一合成グラフ上で訓練された異なるGNNが明らかに性能ギャップを有することを明らかにする。
gcの一般化を妨げる要因は何であり、どのように緩和できるのか?
この問いに答えるために、我々は詳細な分析を開始し、GNNが合成グラフにスペクトルバイアスを注入し、分布シフトをもたらすことを観察する。
この問題に対処するために、GCEM は、GNN のスペクトルバイアスを排除したグラフ構造ではなく、実グラフと合成グラフの固有ベイズにマッチする、GCEM と呼ばれる2つの重要なステップを持つスペクトルフリーグラフ凝縮に対する固有ベイズマッチングを提案する。
その後、GCEMは実グラフと合成固有基底のスペクトルを利用して合成グラフを構築し、本質的な構造情報を保存する。
我々は、GCEMによって生成された合成グラフが実グラフのスペクトル類似性、すなわち全変量を維持することを理論的に証明する。
5つのグラフデータセットで実施された大規模な実験により、GCEMはベースライン上での最先端のパフォーマンスを達成するだけでなく、異なるGNN間のパフォーマンスギャップを大幅に狭める。 The increasing amount of graph data places requirements on the efficiency and scalability of graph neural networks (GNNs), despite their effectiveness in various graph-related applications. Recently, the emerging graph condensation (GC) sheds light on reducing the computational cost of GNNs from a data perspective. It aims to replace the real large graph with a significantly smaller synthetic graph so that GNNs trained on both graphs exhibit comparable performance. However, our empirical investigation reveals that existing GC methods suffer from poor generalization, i.e., different GNNs trained on the same synthetic graph have obvious performance gaps. What factors hinder the generalization of GC and how can we mitigate it? To answer this question, we commence with a detailed analysis and observe that GNNs will inject spectrum bias into the synthetic graph, resulting in a distribution shift. To tackle this issue, we propose eigenbasis matching for spectrum-free graph condensation, named GCEM, which has two key steps: First, GCEM matches the eigenbasis of the real and synthetic graphs, rather than the graph structure, which eliminates the spectrum bias of GNNs. Subsequently, GCEM leverages the spectrum of the real graph and the synthetic eigenbasis to construct the synthetic graph, thereby preserving the essential structural information. We theoretically demonstrate that the synthetic graph generated by GCEM maintains the spectral similarity, i.e., total variation, of the real graph. Extensive experiments conducted on five graph datasets verify that GCEM not only achieves state-of-the-art performance over baselines but also significantly narrows the performance gaps between different GNNs. | 翻訳日:2023-10-16 12:08:30 公開日:2023-10-13 |
# Augmented Computational Design: 生成設計における人工知能の方法論的応用 Augmented Computational Design: Methodical Application of Artificial Intelligence in Generative Design ( http://arxiv.org/abs/2310.09243v1 ) ライセンス: Link先を確認 | Pirouz Nourian, Shervin Azadi, Roy Uijtendaal, Nan Bai | (参考訳) 本章では,生成設計における人工知能の必要性と有用性に関する方法論的考察を紹介する。
具体的には、数百から数千の小さな意思決定を処理しながら、aiによって生成的設計プロセスをどのように拡張して、関心やパフォーマンス指標のいくつかの結果の観点で提供できるかを論じる。
パフォーマンスベースの生成設計パラダイムの中核は、これらの選択と、そのような複雑な決定空間のマッピングとナビゲートの結果の間に統計的またはシミュレーション駆動の関連を作ることである。
本章では、複雑な設計空間のマッピングとナビゲートのためのアーキテクチャ設計における意思決定プロセスを強化するための人工知能の有望な方向性について論じる。 This chapter presents methodological reflections on the necessity and utility of artificial intelligence in generative design. Specifically, the chapter discusses how generative design processes can be augmented by AI to deliver in terms of a few outcomes of interest or performance indicators while dealing with hundreds or thousands of small decisions. The core of the performance-based generative design paradigm is about making statistical or simulation-driven associations between these choices and consequences for mapping and navigating such a complex decision space. This chapter will discuss promising directions in Artificial Intelligence for augmenting decision-making processes in architectural design for mapping and navigating complex design spaces. | 翻訳日:2023-10-16 12:01:43 公開日:2023-10-13 |
# LLMとドメインモデルによる先行的法的判断予測 Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model Collaboration ( http://arxiv.org/abs/2310.09241v1 ) ライセンス: Link先を確認 | Yiquan Wu, Siying Zhou, Yifei Liu, Weiming Lu, Xiaozhong Liu, Yating Zhang, Changlong Sun, Fei Wu, Kun Kuang | (参考訳) 法的判断予測(LJP)は、事件事実記述の観点から事件の判断を予測する法的なAIにおいて、ますます重要な課題となっている。
前例は、同様の事実を有する前例であり、これは、後の国家法制度における判決の根拠である。
したがって、LJPにおける先例の利用について検討する価値がある。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
これらは2つのカテゴリに分類できる: 大きな言語モデル(llm)とドメイン固有モデルである。
LLMは複雑な自然言語を解釈・生成し、ドメインモデルはタスク固有の情報を学ぶのに効率的である。
本稿では,LLMとドメインモデルの両方の長所を前例の文脈で活用する,先例拡張 LJP フレームワーク (PLJP) を提案する。
具体的には、ドメインモデルは候補ラベルを提供し、適切な前例を効率的に見つけるように設計されており、大きなモデルはコンテキスト内の前例を理解することで最終的な予測を行う。
実世界のデータセットにおけるPLJPの有効性を示す実験を行った。
さらに,本研究は,他の垂直領域に一般化可能なLLMおよびドメインモデル協調に向けた有望な方向性を示す。 Legal Judgment Prediction (LJP) has become an increasingly crucial task in Legal AI, i.e., predicting the judgment of the case in terms of case fact description. Precedents are the previous legal cases with similar facts, which are the basis for the judgment of the subsequent case in national legal systems. Thus, it is worthwhile to explore the utilization of precedents in the LJP. Recent advances in deep learning have enabled a variety of techniques to be used to solve the LJP task. These can be broken down into two categories: large language models (LLMs) and domain-specific models. LLMs are capable of interpreting and generating complex natural language, while domain models are efficient in learning task-specific information. In this paper, we propose the precedent-enhanced LJP framework (PLJP), a system that leverages the strength of both LLM and domain models in the context of precedents. Specifically, the domain models are designed to provide candidate labels and find the proper precedents efficiently, and the large models will make the final prediction with an in-context precedents comprehension. Experiments on the real-world dataset demonstrate the effectiveness of our PLJP. Moreover, our work shows a promising direction for LLM and domain-model collaboration that can be generalized to other vertical domains. | 翻訳日:2023-10-16 12:01:34 公開日:2023-10-13 |
# BLP-2023タスク2におけるBanglaNLP:Banglaソーシャルメディアポストの知覚分析のための異なるトランスフォーマーモデルのベンチマーク BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models for Sentiment Analysis of Bangla Social Media Posts ( http://arxiv.org/abs/2310.09238v1 ) ライセンス: Link先を確認 | Saumajit Saha and Albert Nanda | (参考訳) バングラ語は世界で7番目に広く話されている言語であり、インドやバングラデシュからの話者は2億2400万人である。
この形態学的に豊かな言語は豊富な文学的伝統を持ち、多様な方言と言語固有の課題を含んでいる。
言語豊かさと歴史にもかかわらず、バングラは自然言語処理(NLP)と音声コミュニティの中で、低リソース言語として分類されている。
本稿では,blpワークショップのタスク2 (sentiment analysis of bangla social media post) への投稿について述べる。
この課題を解決するために、Transformerベースの様々なアーキテクチャを実験する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
これは、感情分析タスクのために既にtwitterデータに微調整されたモデルと、その微調整されたモデルが他のすべてのモデルの中で最善の性能を発揮すると、明らかになる。
また、詳細なエラー解析を行い、基底真理ラベルを見直す必要があるいくつかのインスタンスを見つけます。
テストセットで67.02\%のマイクロF1を取得し、この共有タスクにおけるパフォーマンスをリーダーボードで21にランク付けする。 Bangla is the 7th most widely spoken language globally, with a staggering 234 million native speakers primarily hailing from India and Bangladesh. This morphologically rich language boasts a rich literary tradition, encompassing diverse dialects and language-specific challenges. Despite its linguistic richness and history, Bangla remains categorized as a low-resource language within the natural language processing (NLP) and speech community. This paper presents our submission to Task 2 (Sentiment Analysis of Bangla Social Media Posts) of the BLP Workshop. We experiment with various Transformer-based architectures to solve this task. Our quantitative results show that transfer learning really helps in better learning of the models in this low-resource language scenario. This becomes evident when we further finetune a model which has already been finetuned on twitter data for sentiment analysis task and that finetuned model performs the best among all other models. We also perform a detailed error analysis where we find some instances where ground truth labels need to be relooked at. We obtain a micro-F1 of 67.02\% on the test set and our performance in this shared task is ranked at 21 in the leaderboard. | 翻訳日:2023-10-16 12:01:16 公開日:2023-10-13 |
# 異種性機械知覚の評価 : 異種シナリオにおけるChatGPTの内因性役割知覚の分析 Evaluating Machine Perception of Indigeneity: An Analysis of ChatGPT's Perceptions of Indigenous Roles in Diverse Scenarios ( http://arxiv.org/abs/2310.09237v1 ) ライセンス: Link先を確認 | Cecilia Delgado Solorzano, Carlos Toxtli Hernandez | (参考訳) 大規模言語モデル(LLM)は、ChatGPTと同様に、様々な社会的印象を反映して、膨大なデータに基づいて訓練されたツールである。
本稿では,様々な役割を演じる先住民のシナリオをシミュレートする際の不均一性に関するLLMの自己認識バイアスについて検討する。
複数のシナリオを生成し分析することで、この研究は、社会コンピューティングの多様性に関連する社会バイアスをどのように認識し、増幅するかという、ユニークな視点を提供する。
この発見は、臨界コンピューティングにおける不均一性の広範な意味に関する洞察を与える。 Large Language Models (LLMs), like ChatGPT, are fundamentally tools trained on vast data, reflecting diverse societal impressions. This paper aims to investigate LLMs' self-perceived bias concerning indigeneity when simulating scenarios of indigenous people performing various roles. Through generating and analyzing multiple scenarios, this work offers a unique perspective on how technology perceives and potentially amplifies societal biases related to indigeneity in social computing. The findings offer insights into the broader implications of indigeneity in critical computing. | 翻訳日:2023-10-16 12:00:55 公開日:2023-10-13 |
# MEGデータにおける懐疑的スパイク検出のための時間CNNとグラフ畳み込みネットワーク Time CNN and Graph Convolution Network for Epileptic Spike Detection in MEG Data ( http://arxiv.org/abs/2310.09236v1 ) ライセンス: Link先を確認 | Pauline Mouches, Thibaut Dejean, Julien Jung, Romain Bouet, Carole Lartizien, Romain Quentin | (参考訳) てんかん患者の脳磁図(MEG)は、病理の典型的なバイオマーカーであるスパイクを示す。
これらのスパイクの検出は、発作を引き起こす脳領域の正確な局在を可能にする。
スパイク検出はしばしば手動で行われる。
しかしながら、megデータの複雑さのため、面倒でエラーが発生しやすいタスクである。
この問題を解決するために,1次元時間畳み込みニューラルネットワーク (Time CNN) とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせることで,MEG記録の短時間フレームをスパイクを含むか否かの分類を行う。
近年のアプローチと比較して,本モデルではトレーニングパラメータが少ないため,MEGセンサの空間的関係を考慮したGCNを提案する。
我々のモデルは臨床的に関連のある結果を生成し、ディープラーニングに基づく最先端の手法を上回り、バランスの取れたデータセットでは76.7%、スパイククラスでは25.5%に達している。 Magnetoencephalography (MEG) recordings of patients with epilepsy exhibit spikes, a typical biomarker of the pathology. Detecting those spikes allows accurate localization of brain regions triggering seizures. Spike detection is often performed manually. However, it is a burdensome and error prone task due to the complexity of MEG data. To address this problem, we propose a 1D temporal convolutional neural network (Time CNN) coupled with a graph convolutional network (GCN) to classify short time frames of MEG recording as containing a spike or not. Compared to other recent approaches, our models have fewer parameters to train and we propose to use a GCN to account for MEG sensors spatial relationships. Our models produce clinically relevant results and outperform deep learning-based state-of-the-art methods reaching a classification f1-score of 76.7% on a balanced dataset and of 25.5% on a realistic, highly imbalanced dataset, for the spike class. | 翻訳日:2023-10-16 12:00:47 公開日:2023-10-13 |
# AgentCF: Recommenderシステムのための自律言語エージェントによる協調学習 AgentCF: Collaborative Learning with Autonomous Language Agents for Recommender Systems ( http://arxiv.org/abs/2310.09233v1 ) ライセンス: Link先を確認 | Junjie Zhang, Yupeng Hou, Ruobing Xie, Wenqi Sun, Julian McAuley, Wayne Xin Zhao, Leyu Lin, Ji-Rong Wen | (参考訳) 近年,その顕著な意思決定能力に基づいて,LLMを媒介する薬剤を人間プロキシとして利用し始めている。
しかし、既存の研究は主に人間の対話のシミュレーションに焦点を当てている。
推薦システムにおけるアイテムクリックのような人間の非言語行動は、暗黙的にユーザの好みを示し、ユーザのモデリングを強化するが、深く検討されていない。
主な理由は、言語モデリングと行動モデリングのギャップと、ユーザ・イテム関係に関するLLMの理解の欠如にある。
この問題に対処するため,エージェントベースの協調フィルタリングにより,レコメンダシステムにおけるユーザ・イテムインタラクションをシミュレートするエージェントCFを提案する。
創造的にユーザだけでなく,アイテムもエージェントとして考慮し,双方のエージェントを最適化する協調学習手法を開発した。
具体的には、各ステップで、まずユーザーとアイテムエージェントが自律的に対話するように促します。
そして、エージェントの判断と実世界のインタラクション記録との相違に基づいて、ユーザとアイテムエージェントが協調して誤解を招くシミュレーションを反映・調整するように促され、両者の関係をモデル化する。
最適化されたエージェントは、後続のインタラクションにおいて他のエージェントへの好みを伝達し、暗黙的に協調フィルタリングのアイデアを捉えることができる。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内のさまざまなインタラクション挙動を示す。
その結果、これらのエージェントは現実世界の個人と同様のパーソナライズされた行動を示すことができ、次世代のユーザ行動シミュレーションの開発に拍車をかけた。 Recently, there has been an emergence of employing LLM-powered agents as believable human proxies, based on their remarkable decision-making capability. However, existing studies mainly focus on simulating human dialogue. Human non-verbal behaviors, such as item clicking in recommender systems, although implicitly exhibiting user preferences and could enhance the modeling of users, have not been deeply explored. The main reasons lie in the gap between language modeling and behavior modeling, as well as the incomprehension of LLMs about user-item relations. To address this issue, we propose AgentCF for simulating user-item interactions in recommender systems through agent-based collaborative filtering. We creatively consider not only users but also items as agents, and develop a collaborative learning approach that optimizes both kinds of agents together. Specifically, at each time step, we first prompt the user and item agents to interact autonomously. Then, based on the disparities between the agents' decisions and real-world interaction records, user and item agents are prompted to reflect on and adjust the misleading simulations collaboratively, thereby modeling their two-sided relations. The optimized agents can also propagate their preferences to other agents in subsequent interactions, implicitly capturing the collaborative filtering idea. Overall, the optimized agents exhibit diverse interaction behaviors within our framework, including user-item, user-user, item-item, and collective interactions. The results show that these agents can demonstrate personalized behaviors akin to those of real-world individuals, sparking the development of next-generation user behavior simulation. | 翻訳日:2023-10-16 12:00:28 公開日:2023-10-13 |
# フィルタランダム状態によるCHSH-Bell不等式の忠実ロバスト性について On the Fidelity Robustness of CHSH--Bell Inequality via Filtered Random States ( http://arxiv.org/abs/2310.09231v1 ) ライセンス: Link先を確認 | Antonio Mandarino, Giovanni Scala | (参考訳) ジョン・ベルによって開発された定理は、現実の性質に関する哲学的疑問を量子情報技術の研究の広範囲で激しい分野に翻訳する革命の出発点となった。
ランダムで混合状態の2つの量子ビットの系に着目し,CHSH-Bell不等式による非局所性の典型的な挙動について検討する。
その後、国家準備における非効率性の説明の必要性から、高度に非古典的な状態に近い状態が、以前選択された実験装置で局所現実主義に反する可能性があることを論じる。 The theorem developed by John Bell constituted the starting point of a revolution that translated a philosophical question about the nature of reality into the broad and intense field of research of the quantum information technologies. We focus on a system of two qubits prepared in a random, mixed state, and we study the typical behavior of their nonlocality via the CHSH--Bell inequality. Afterward, motivated by the necessity of accounting for inefficiency in the state preparation, we address to what extent states close enough to one with a high degree of nonclassicality can violate local realism with a previously chosen experimental setup. | 翻訳日:2023-10-16 11:59:59 公開日:2023-10-13 |
# insuring smiles: spark mlを用いた日常歯科被曝の予測 Insuring Smiles: Predicting routine dental coverage using Spark ML ( http://arxiv.org/abs/2310.09229v1 ) ライセンス: Link先を確認 | Aishwarya Gupta, Rahul S. Bhogale, Priyanka Thota, Prathushkumar Dathuri, Jongwook Woo | (参考訳) 米国内の個人や小規模企業にとって、適切な医療保険対象を見つけることは困難である。
CMSが提供する健康保険交換公用ファイル(Exchange PUFs)データセットは、健康および歯科政策に関する貴重な情報を提供する。
本稿では,成人の日常歯科医療を対象とする健康保険計画について,機械学習アルゴリズムを用いて予測する。
計画タイプ,地域,デダクティブル,アウト・オブ・ポケットの最大値,コペイメントを分析して,ロジスティック回帰,決定木,ランダムフォレスト,グラディエントブースト,ファクトリゼーションモデル,サポートベクトルマシンアルゴリズムを用いる。
我々の目標は、個人や家族が収入と経費に基づいて最も適切な保険計画を選択するための臨床戦略を提供することである。 Finding suitable health insurance coverage can be challenging for individuals and small enterprises in the USA. The Health Insurance Exchange Public Use Files (Exchange PUFs) dataset provided by CMS offers valuable information on health and dental policies [1]. In this paper, we leverage machine learning algorithms to predict if a health insurance plan covers routine dental services for adults. By analyzing plan type, region, deductibles, out-of-pocket maximums, and copayments, we employ Logistic Regression, Decision Tree, Random Forest, Gradient Boost, Factorization Model and Support Vector Machine algorithms. Our goal is to provide a clinical strategy for individuals and families to select the most suitable insurance plan based on income and expenses. | 翻訳日:2023-10-16 11:59:47 公開日:2023-10-13 |
# 大規模言語モデルと自動クレームマッチング:誤情報対策におけるファクトチェッカーの活用 Automated Claim Matching with Large Language Models: Empowering Fact-Checkers in the Fight Against Misinformation ( http://arxiv.org/abs/2310.09223v1 ) ライセンス: Link先を確認 | Eun Cheol Choi and Emilio Ferrara | (参考訳) 今日のデジタル時代には、誤報が急速に広まり、公衆の幸福と社会的信頼が脅かされる。
オンラインの誤報が増加するにつれ、ファクトチェッカーによる手動検証はますます困難になりつつある。
我々は,大規模言語モデル(llms)を用いたファクトチェックのファクトチェックフェーズを自動化するフレームワークであるfact-gpt(fact-checking augmentation with claim-oriented generative pre-trained transformer)を導入する。
このフレームワークは、ファクトチェッカーによって以前否定された主張を支持したり否定したりする新しいソーシャルメディアコンテンツを識別する。
本手法では,gpt-4を用いてソーシャルメディア投稿を模擬したラベル付きデータセットを生成する。
このデータセットは、より専門的なLSMを微調整するためのトレーニング場として機能する。
FACT-GPTを公衆衛生に関連するソーシャルメディアコンテンツのデータセットとして評価した。
以上の結果から,我々の微調整 LLM は,人間のアノテーションと密接に一致して,より大きな事前学習 LLM のパフォーマンスに匹敵することを示した。
ファクトチェックの強化のための自動化フレームワークを提供し、人間の専門知識を補完するLLMの可能性を示し、ファクトチェック領域におけるさらなる研究と応用のためにデータセットやモデルを含む公開リソースを提供する。 In today's digital era, the rapid spread of misinformation poses threats to public well-being and societal trust. As online misinformation proliferates, manual verification by fact checkers becomes increasingly challenging. We introduce FACT-GPT (Fact-checking Augmentation with Claim matching Task-oriented Generative Pre-trained Transformer), a framework designed to automate the claim matching phase of fact-checking using Large Language Models (LLMs). This framework identifies new social media content that either supports or contradicts claims previously debunked by fact-checkers. Our approach employs GPT-4 to generate a labeled dataset consisting of simulated social media posts. This data set serves as a training ground for fine-tuning more specialized LLMs. We evaluated FACT-GPT on an extensive dataset of social media content related to public health. The results indicate that our fine-tuned LLMs rival the performance of larger pre-trained LLMs in claim matching tasks, aligning closely with human annotations. This study achieves three key milestones: it provides an automated framework for enhanced fact-checking; demonstrates the potential of LLMs to complement human expertise; offers public resources, including datasets and models, to further research and applications in the fact-checking domain. | 翻訳日:2023-10-16 11:59:32 公開日:2023-10-13 |
# 大規模言語モデルに対するユーザ推論攻撃 User Inference Attacks on Large Language Models ( http://arxiv.org/abs/2310.09266v1 ) ライセンス: Link先を確認 | Nikhil Kandpal, Krishna Pillutla, Alina Oprea, Peter Kairouz, Christopher A. Choquette-Choo, Zheng Xu | (参考訳) 微調整は、特殊なタスクやアプリケーションに大規模言語モデル(llm)を調整するための一般的かつ効果的な方法である。
本稿では,ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。
この目的のために,攻撃者がユーザのデータを微調整に使用しているかどうかを推測する,ユーザ推論と呼ばれる現実的な脅威モデルを定義した。
この脅威モデルに対する攻撃は、ユーザからのサンプル(おそらくトレーニングで使用されるサンプルと異なる)と、微調整されたLDMへのブラックボックスアクセスのみを必要とする。
LLMは様々な微調整データセットをまたいだユーザ推測攻撃の影響を受けやすいことが分かり、攻撃成功率がほぼ完璧な場合もあります。
さらに、利用者がどの特性でユーザ推定に弱いかを調査し、外部ユーザ(つまり、他のユーザと十分に異なるデータ分布を持つユーザ)と大量のデータに貢献するユーザが最も攻撃を受けやすいことを確かめる。
最後に、プライバシー攻撃を緩和するためのいくつかのヒューリスティックを探求する。
バッチやサンプル毎の勾配クリッピングや早期停止といったトレーニングアルゴリズムの介入は、ユーザの推論を防げないことが分かりました。
しかしながら、単一ユーザからの微調整サンプル数を制限することは、微調整データの総量を減らすコストを犠牲にすることなく、攻撃効果を低減できる。 Fine-tuning is a common and effective method for tailoring large language models (LLMs) to specialized tasks and applications. In this paper, we study the privacy implications of fine-tuning LLMs on user data. To this end, we define a realistic threat model, called user inference, wherein an attacker infers whether or not a user's data was used for fine-tuning. We implement attacks for this threat model that require only a small set of samples from a user (possibly different from the samples used for training) and black-box access to the fine-tuned LLM. We find that LLMs are susceptible to user inference attacks across a variety of fine-tuning datasets, at times with near perfect attack success rates. Further, we investigate which properties make users vulnerable to user inference, finding that outlier users (i.e. those with data distributions sufficiently different from other users) and users who contribute large quantities of data are most susceptible to attack. Finally, we explore several heuristics for mitigating privacy attacks. We find that interventions in the training algorithm, such as batch or per-example gradient clipping and early stopping fail to prevent user inference. However, limiting the number of fine-tuning samples from a single user can reduce attack effectiveness, albeit at the cost of reducing the total amount of fine-tuning data. | 翻訳日:2023-10-16 11:52:35 公開日:2023-10-13 |
# PromptRE: Promptingベースのデータプログラミングによる文書レベル関係抽出 PromptRE: Weakly-Supervised Document-Level Relation Extraction via Prompting-Based Data Programming ( http://arxiv.org/abs/2310.09265v1 ) ライセンス: Link先を確認 | Chufan Gao, Xulin Fan, Jimeng Sun, Xuan Wang | (参考訳) 関係抽出は、2つのエンティティ間の関係を予め定義されたカテゴリに分類することを目的としている。
従来,文レベルの関係抽出を中心に研究されてきたが,近年では文書レベルの関係抽出にまで範囲を広げている。
従来の関係抽出手法は、時間と労働集約的な人手によるトレーニングデータに大きく依存している。
手動アノテーションの必要性を緩和するため,文レベルの関係抽出には近年,弱い教師付きアプローチが開発されているが,文書レベルの関係抽出では限定的な作業が行われている。
弱教師付き文書レベルの関係抽出は、不均衡な数 "no relation" インスタンスと、事前訓練された大規模言語モデルによる文書関係抽出の失敗により、重大な課題に直面している。
これらの課題に対処するため,プロンプトベースの手法とデータプログラミングを組み合わせた文書レベルの関係抽出手法であるPromptREを提案する。
さらに、PromptREはラベルの分布とエンティティタイプを事前知識として組み込んでパフォーマンスを向上させる。
PromptREは、プロンプトとデータプログラミングの両方の長所を活用することで、関係分類におけるパフォーマンスの向上を実現し、"非関係"問題に効果的に対処する。
文書レベルの関係抽出のためのベンチマークデータセットであるReDocREDの実験結果は、ベースラインアプローチよりもPromptREの方が優れていることを示す。 Relation extraction aims to classify the relationships between two entities into pre-defined categories. While previous research has mainly focused on sentence-level relation extraction, recent studies have expanded the scope to document-level relation extraction. Traditional relation extraction methods heavily rely on human-annotated training data, which is time-consuming and labor-intensive. To mitigate the need for manual annotation, recent weakly-supervised approaches have been developed for sentence-level relation extraction while limited work has been done on document-level relation extraction. Weakly-supervised document-level relation extraction faces significant challenges due to an imbalanced number "no relation" instances and the failure of directly probing pretrained large language models for document relation extraction. To address these challenges, we propose PromptRE, a novel weakly-supervised document-level relation extraction method that combines prompting-based techniques with data programming. Furthermore, PromptRE incorporates the label distribution and entity types as prior knowledge to improve the performance. By leveraging the strengths of both prompting and data programming, PromptRE achieves improved performance in relation classification and effectively handles the "no relation" problem. Experimental results on ReDocRED, a benchmark dataset for document-level relation extraction, demonstrate the superiority of PromptRE over baseline approaches. | 翻訳日:2023-10-16 11:52:14 公開日:2023-10-13 |
# table-gpt:多様なテーブルタスクのためのテーブル調整gpt Table-GPT: Table-tuned GPT for Diverse Table Tasks ( http://arxiv.org/abs/2310.09263v1 ) ライセンス: Link先を確認 | Peng Li, Yeye He, Dror Yashar, Weiwei Cui, Song Ge, Haidong Zhang, Danielle Rifinski Fainman, Dongmei Zhang, Surajit Chaudhuri | (参考訳) GPT-3.5やChatGPTといった言語モデルは、多種多様な人間の指示に従い、幅広いタスクを実行する能力を示す。
しかしながら, 基本的タスクを多用した言語モデルを探索する場合, 今日の言語モデルは, 表関連タスクにおいてまだサブ最適であり, それらは主に emph{one-dimensional} 自然言語テキストで事前訓練されているのに対して, リレーショナルテーブルは \emph{two-dimensional} オブジェクトである。
本稿では,gpt-3.5 や chatgpt などの言語モデルの学習と精細化を継続し,実表から合成した多種多様なテーブルタスクをトレーニングデータとして使用し,言語モデルのテーブル理解能力の向上とテーブルタスクの実行を目標とした,新たな "\emph{table-tuning}" パラダイムを提案する。
GPT-3.5 や ChatGPT と同様の方法で,(1) 多様な人的指示に応答して新しいテーブルタスクを実行する能力において,(1) テーブルタスクのホールドアウトを含む広範囲なテーブルタスクにおいて,バニラ GPT-3.5 や ChatGPT より優れた \emph{table-understanding} 能力を示す。 Language models, such as GPT-3.5 and ChatGPT, demonstrate remarkable abilities to follow diverse human instructions and perform a wide range of tasks. However, when probing language models using a range of basic table-understanding tasks, we observe that today's language models are still sub-optimal in many table-related tasks, likely because they are pre-trained predominantly on \emph{one-dimensional} natural-language texts, whereas relational tables are \emph{two-dimensional} objects. In this work, we propose a new "\emph{table-tuning}" paradigm, where we continue to train/fine-tune language models like GPT-3.5 and ChatGPT, using diverse table-tasks synthesized from real tables as training data, with the goal of enhancing language models' ability to understand tables and perform table tasks. We show that our resulting Table-GPT models demonstrate (1) better \emph{table-understanding} capabilities, by consistently outperforming the vanilla GPT-3.5 and ChatGPT, on a wide-range of table tasks, including holdout unseen tasks, and (2) strong \emph{generalizability}, in its ability to respond to diverse human instructions to perform new table-tasks, in a manner similar to GPT-3.5 and ChatGPT. | 翻訳日:2023-10-16 11:51:51 公開日:2023-10-13 |
# 生成型大規模言語モデルにおけるエンドツーエンド4ビット推論に向けて Towards End-to-end 4-Bit Inference on Generative Large Language Models ( http://arxiv.org/abs/2310.09259v1 ) ライセンス: Link先を確認 | Saleh Ashkboos, Ilia Markov, Elias Frantar, Tingxuan Zhong, Xincheng Wang, Jie Ren, Torsten Hoefler, Dan Alistarh | (参考訳) llama や opt などの大規模生成モデルに対する推論計算は, 重みとアクティベーションの両方を4ビットにキャスティングすることで, 高い精度を維持しつつ, 実用的な高速化を実現することができることを示す。
我々はQUIKと呼ばれるハイブリッド量子化戦略によりこれを達成し、ほとんどの重量と活性化を4ビットに圧縮し、より精度の高い重量と活性化を維持する。
計算効率を念頭に設計されており、GPUカーネルに高い効率のレイヤワイドランタイムを提供し、FP16実行と比較して3.1倍のスループット向上を実現している。
コードとモデルはhttps://github.com/IST-DASLab/QUIKで提供されている。 We show that the majority of the inference computations for large generative models such as LLaMA and OPT can be performed with both weights and activations being cast to 4 bits, in a way that leads to practical speedups while at the same time maintaining good accuracy. We achieve this via a hybrid quantization strategy called QUIK, which compresses most of the weights and activations to 4-bit, while keeping some outlier weights and activations in higher-precision. Crucially, our scheme is designed with computational efficiency in mind: we provide GPU kernels with highly-efficient layer-wise runtimes, which lead to practical end-to-end throughput improvements of up to 3.1x relative to FP16 execution. Code and models are provided at https://github.com/IST-DASLab/QUIK. | 翻訳日:2023-10-16 11:50:37 公開日:2023-10-13 |
# 多言語環境における政治的クレームの識別と分類:最初の実験 Political claim identification and categorization in a multilingual setting: First experiments ( http://arxiv.org/abs/2310.09256v1 ) ライセンス: Link先を確認 | Urs Zaberer and Sebastian Pad\'o and Gabriella Lapesa | (参考訳) 政治的クレームの識別と分類は、政治新聞の分析において重要なステップであるが、このタスクのリソースはほとんどない。
本稿では,政治的クレーム分析の言語間予測のための異なる戦略について検討する。
我々は、2015年の難民危機で引き起こされた政策論争をカバーし、ドイツのデータセットであるDebateNet2.0で実験を行いました。
評価には2つのタスク(認識と分類)、3つの言語(ドイツ語、英語、フランス語)、2つのメソッド(実験で最良の機械翻訳、多言語埋め込み)がある。 The identification and classification of political claims is an important step in the analysis of political newspaper reports; however, resources for this task are few and far between. This paper explores different strategies for the cross-lingual projection of political claims analysis. We conduct experiments on a German dataset, DebateNet2.0, covering the policy debate sparked by the 2015 refugee crisis. Our evaluation involves two tasks (claim identification and categorization), three languages (German, English, and French) and two methods (machine translation -- the best method in our experiments -- and multilingual embeddings). | 翻訳日:2023-10-16 11:50:14 公開日:2023-10-13 |
# 空間内および空間横断マップへの生成的エントロピーニューラル最適輸送 Generative Entropic Neural Optimal Transport To Map Within and Across Spaces ( http://arxiv.org/abs/2310.09254v1 ) ライセンス: Link先を確認 | Dominik Klein, Th\'eo Uscidda, Fabian Theis, Marco Cuturi | (参考訳) 学習測度マッピングは機械学習において重要な課題であり、生成モデリングにおいて顕著である。
近年、最適輸送(ot)理論から着想を得た技術が急増している。
ニューラルネットワークモデルと組み合わせて、これらの手法を総称して「textit{Neural OT}」は帰納的バイアスとして最適輸送を用いる:そのようなマッピングは、(変位を最小限にすることで)遠方へ(等尺的に)、あるいは空間をまたいで(等尺的に)移動できるという意味で、与えられたコスト関数として最適であるべきである。
正方形のユークリッドコスト以外のコスト関数は扱いづらいが、モンジュマップの決定論的定式化は柔軟性をほとんど残さず、非可換空間を横断するマッピングは複数の課題を提起する一方、OT固有の大量保存制約はオフレーヤに過剰な信用を与える。
これらの実践と理論のミスマッチは、それぞれ独立して様々な研究で取り組まれてきたが、本研究では、それらを統一するためのエレガントな枠組みである \textit{generative entropic neural optimal transport} (genot) を提案する。
GENOTは任意のコスト関数に対応でき、条件付き生成モデルを使ってランダム性を扱う。
本手法は,様々な合成データセットを用いた実験を通して評価し,単細胞生物学における実用性を示す。
この領域では、ジェノットは細胞発達のモデル化、薬物に対する細胞応答の予測、細胞の異なるデータモダリティ間の翻訳といったタスクに有用であることが証明されている。 Learning measure-to-measure mappings is a crucial task in machine learning, featured prominently in generative modeling. Recent years have witnessed a surge of techniques that draw inspiration from optimal transport (OT) theory. Combined with neural network models, these methods collectively known as \textit{Neural OT} use optimal transport as an inductive bias: such mappings should be optimal w.r.t. a given cost function, in the sense that they are able to move points in a thrifty way, within (by minimizing displacements) or across spaces (by being isometric). This principle, while intuitive, is often confronted with several practical challenges that require adapting the OT toolbox: cost functions other than the squared-Euclidean cost can be challenging to handle, the deterministic formulation of Monge maps leaves little flexibility, mapping across incomparable spaces raises multiple challenges, while the mass conservation constraint inherent to OT can provide too much credit to outliers. While each of these mismatches between practice and theory has been addressed independently in various works, we propose in this work an elegant framework to unify them, called \textit{generative entropic neural optimal transport} (GENOT). GENOT can accommodate any cost function; handles randomness using conditional generative models; can map points across incomparable spaces, and can be used as an \textit{unbalanced} solver. We evaluate our approach through experiments conducted on various synthetic datasets and demonstrate its practicality in single-cell biology. In this domain, GENOT proves to be valuable for tasks such as modeling cell development, predicting cellular responses to drugs, and translating between different data modalities of cells. | 翻訳日:2023-10-16 11:49:53 公開日:2023-10-13 |
# キラル光間相互作用における遷移双極子モーメントの最適偏光状態 Optimized polarization state of transition dipole moment for chiral light-matter interactions ( http://arxiv.org/abs/2310.09253v1 ) ライセンス: Link先を確認 | Jakub Rosi\'nski, Micha{\l} Gawe{\l}czyk, Karol Tarnowski, Pawe{\l} Karwat, Daniel Wigger, Pawe{\l} Machnikowski | (参考訳) 量子ドット(qds)とフォトニック結晶導波路モード間の方向相互作用を可能にするカイラルカップリングは、量子情報処理と通信の強化を約束している。
しかし, エピタキシャルqd作製において, 側方qd位置の精密制御の欠如は, 多数のqdに対して効率的なキラルインタフェースを実現するための課題である。
従来は円偏光エミッタが検討されているが、その指向性エミッタ領域は比較的小さいため、高指向性エミッタと大きなパーセル増強領域の間の最適重なりが生じる。
これらの制約に対処するため,我々は,qd遷移双極子モーメントの楕円分極を効率的に行うための革新的な手法を提案する。
ランダムなqd位置を考慮すれば,現実的楕円偏光が効果的な方向結合領域を著しく増加させ,デバイスのスケーラビリティを向上させることを実証する。
さらに、楕円偏光エミッタは、高い方向性領域と大きなパーセル増強領域の重なりを改善する。
以上の結果から,QDベースのフォトニック集積回路において,高効率なキラルカップリングが実現可能であり,高度な量子情報ストレージ,処理,通信機能を備えた,堅牢でスケーラブルな量子ネットワークに近づいた。 Chiral coupling, enabling directional interactions between quantum dots (QDs) and photonic crystal waveguide modes, holds the promise for enhancing quantum information processing and communication. However, in epitaxial QD fabrication, the lack of precise control over lateral QD positions poses a challenge for achieving efficient chiral interfaces for large numbers of QDs. Conventionally, circularly polarized emitters are considered, but their directional emission area is rather small, leading to suboptimal overlap between highly directional emission and large Purcell enhancement regions. To address these limitations, we propose an innovative approach to engineering the elliptical polarization of the QD's transition dipole moment to facilitate an efficient chiral interface. By considering random QD positions, we demonstrate that realistic elliptical polarization significantly increases the effective directional coupling area, thereby improving the scalability of the device. Furthermore, an elliptically polarized emitter offers improved overlap between regions of high directionality and large Purcell enhancement. Our results present a viable path for efficient chiral coupling in QD-based photonic integrated circuits, bringing us closer to robust and scalable quantum networks with advanced quantum information storage, processing, and communication capabilities. | 翻訳日:2023-10-16 11:48:54 公開日:2023-10-13 |
# これはアライメントでありトレードオフではない - ディープモデルにおけるバイアスと分散を再考する It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep Models ( http://arxiv.org/abs/2310.09250v1 ) ライセンス: Link先を確認 | Lin Chen, Michal Lukasik, Wittawat Jitkrittum, Chong You, Sanjiv Kumar | (参考訳) 機械学習における古典的な知恵は、一般化誤差はバイアスと分散に分解され、これらの2つの用語は \emph{trade-off} を示す。
しかし,本論文では,深層学習に基づく分類モデルのアンサンブルにおいて,偏差と偏差は標本レベルでは「emph{aligned}」であり,正方偏差は約「emph{equal}」であることを示す。
我々は,この現象を様々なディープラーニングモデルとデータセットで確認する実証的証拠を示す。
さらに,この現象をキャリブレーションと神経崩壊という2つの理論的観点から検討した。
まず、モデルが十分に校正されているという仮定の下で、偏差アライメントを観測できることを理論的に示す。
次に,神経崩壊理論による画像から,バイアスと分散の近似相関を示す。 Classical wisdom in machine learning holds that the generalization error can be decomposed into bias and variance, and these two terms exhibit a \emph{trade-off}. However, in this paper, we show that for an ensemble of deep learning based classification models, bias and variance are \emph{aligned} at a sample level, where squared bias is approximately \emph{equal} to variance for correctly classified sample points. We present empirical evidence confirming this phenomenon in a variety of deep learning models and datasets. Moreover, we study this phenomenon from two theoretical perspectives: calibration and neural collapse. We first show theoretically that under the assumption that the models are well calibrated, we can observe the bias-variance alignment. Second, starting from the picture provided by the neural collapse theory, we show an approximate correlation between bias and variance. | 翻訳日:2023-10-16 11:48:30 公開日:2023-10-13 |
# WordNet階層によるテキスト・画像モデルのハイパーネミー理解 Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy ( http://arxiv.org/abs/2310.09247v1 ) ライセンス: Link先を確認 | Anton Baryshnikov, Max Ryabinin | (参考訳) テキストから画像への合成は、品質の急速な向上と多くの実用的応用により、最近広く注目を集めている。
しかし、テキスト・ツー・イメージモデルの言語理解能力はまだよく理解されていないため、与えられたモデルが十分に理解するであろう素早い定式化を推論することは困難である。
本研究では,人気テキスト・画像モデルが$\textit{hypernymy}$,あるいは単語間の"is-a"関係を理解する能力を測定する。
我々は、WordNetのセマンティック階層に基づく2つの自動メトリクスと、ImageNetで事前訓練された既存の画像分類器を設計する。
これらのメトリクスは、テキストから画像へのモデルの言語能力の広範な定量的比較を可能にし、モデルに未知で描画が難しい単語のような細かな質的な違いを見つける方法を提供する。
GLIDE、Latent Diffusion、Stable Diffusionなど、人気のあるテキストと画像のモデルを総合的に評価し、我々のメトリクスがこれらのモデルの個々の長所と短所をよりよく理解できることを示す。 Text-to-image synthesis has recently attracted widespread attention due to rapidly improving quality and numerous practical applications. However, the language understanding capabilities of text-to-image models are still poorly understood, which makes it difficult to reason about prompt formulations that a given model would understand well. In this work, we measure the capability of popular text-to-image models to understand $\textit{hypernymy}$, or the "is-a" relation between words. We design two automatic metrics based on the WordNet semantic hierarchy and existing image classifiers pretrained on ImageNet. These metrics both enable broad quantitative comparison of linguistic capabilities for text-to-image models and offer a way of finding fine-grained qualitative differences, such as words that are unknown to models and thus are difficult for them to draw. We comprehensively evaluate popular text-to-image models, including GLIDE, Latent Diffusion, and Stable Diffusion, showing how our metrics can provide a better understanding of the individual strengths and weaknesses of these models. | 翻訳日:2023-10-16 11:48:13 公開日:2023-10-13 |
# 圧縮駆動型Kerr発振器の対称性 Symmetries of the squeeze-driven Kerr oscillator ( http://arxiv.org/abs/2310.09245v1 ) ライセンス: Link先を確認 | Francesco Iachello, Rodrigo G. Corti\~nas, Francisco P\'erez-Bernal, Lea F. Santos | (参考訳) 我々は、駆動超伝導非線形発振器の静的有効ハミルトニアン(いわゆるシャープ駆動のカー・ハミルトニアン)の対称性を考察し、カー係数のK$に対するデチューニングパラメータの$\eta=\Delta /K$の整数値において、顕著な準スピン対称性$su(2)$を発見する。
駆動ハミルトニアンの静的有効膨張に起因する高次摂動に対するこの新たに発見された対称性の安定性について検討する。
量子コンピューティングに有用な状態の生成と安定化に応用を見出すことができる。
最後に、同様の性質を持つ他のハミルトニアンについて、現在の技術の範囲内で議論する。 We study the symmetries of the static effective Hamiltonian of a driven superconducting nonlinear oscillator, the so-called squeeze-driven Kerr Hamiltonian, and discover a remarkable quasi-spin symmetry $su(2)$ at integer values of the ratio $\eta=\Delta /K$ of the detuning parameter $\Delta $ to the Kerr coefficient $K$. We investigate the stability of this newly discovered symmetry to high-order perturbations arising from the static effective expansion of the driven Hamiltonian. Our finding may find applications in the generation and stabilization of states useful for quantum computing. Finally, we discuss other Hamiltonians with similar properties and within reach of current technologies. | 翻訳日:2023-10-16 11:47:54 公開日:2023-10-13 |
# トレーニングフリー合成画像検索のための視覚バイ言語 Vision-by-Language for Training-Free Compositional Image Retrieval ( http://arxiv.org/abs/2310.09291v1 ) ライセンス: Link先を確認 | Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata | (参考訳) 画像とターゲット修正(例えば、エッフェル塔の画像と「人なしで、夜間に」テキスト)が与えられた場合、コンポジション画像検索 (CIR) はデータベースで関連するターゲット画像を取得することを目的としている。
教師付きアプローチは、高価な注釈付け三重項(クエリ画像、テキスト修正、ターゲット画像など)に依存しているが、最近の研究は、大規模な視覚言語モデル(VLM)を使用し、Zero-Shot CIR(ZS-CIR)を実行することで、このニーズに対処している。
しかし、ZS-CIRの最先端のアプローチでは、大量の画像テキストペアに対してタスク固有の、カスタマイズされたモデルをトレーニングする必要がある。
本研究では,大規模なVLMを大規模言語モデル (LLM) で効果的に再結合する,シンプルで理解しやすい,スケーラブルなパイプラインであるCIReVL (CIReVL) を通じて,我々のコンポジション画像検索を通じて,CIRの学習自由な取り組みを提案する。
事前訓練された生成VLMを用いて参照画像をキャプションし、LLMに対して、CLIPによる検索のためのテキストターゲット修正に基づくキャプションの再構成を求めることにより、モジュール言語推論を実現する。
4つのZS-CIRベンチマークでは、教師付きメソッドよりも優れた、競争力のある最先端のパフォーマンスが得られます。
さらに、CIReVLのモジュラリティは、再トレーニングなしに単純なスケーラビリティを提供し、ZS-CIRのスケーリング法則とボトルネックの両方を調査できると同時に、以前報告した結果の2倍以上のパーツに簡単にスケールアップできる。
最後に、CIReVLは言語領域において、画像とテキストをモジュール形式で構成することで、CIRを人間的に理解しやすくする。
コードは受理時にリリースされる。 Given an image and a target modification (e.g an image of the Eiffel tower and the text "without people and at night-time"), Compositional Image Retrieval (CIR) aims to retrieve the relevant target image in a database. While supervised approaches rely on annotating triplets that is costly (i.e. query image, textual modification, and target image), recent research sidesteps this need by using large-scale vision-language models (VLMs), performing Zero-Shot CIR (ZS-CIR). However, state-of-the-art approaches in ZS-CIR still require training task-specific, customized models over large amounts of image-text pairs. In this work, we propose to tackle CIR in a training-free manner via our Compositional Image Retrieval through Vision-by-Language (CIReVL), a simple, yet human-understandable and scalable pipeline that effectively recombines large-scale VLMs with large language models (LLMs). By captioning the reference image using a pre-trained generative VLM and asking a LLM to recompose the caption based on the textual target modification for subsequent retrieval via e.g. CLIP, we achieve modular language reasoning. In four ZS-CIR benchmarks, we find competitive, in-part state-of-the-art performance - improving over supervised methods. Moreover, the modularity of CIReVL offers simple scalability without re-training, allowing us to both investigate scaling laws and bottlenecks for ZS-CIR while easily scaling up to in parts more than double of previously reported results. Finally, we show that CIReVL makes CIR human-understandable by composing image and text in a modular fashion in the language domain, thereby making it intervenable, allowing to post-hoc re-align failure cases. Code will be released upon acceptance. | 翻訳日:2023-10-16 11:42:07 公開日:2023-10-13 |
# Visuo-Motor プレトレーニングにおけるデータセットの偏見 An Unbiased Look at Datasets for Visuo-Motor Pre-Training ( http://arxiv.org/abs/2310.09289v1 ) ライセンス: Link先を確認 | Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta | (参考訳) 視覚表現学習はロボティクスに大きな可能性を秘めているが、ロボティクスデータセットの不足と均一性によって著しく妨げられている。
最近の研究は、大規模だが領域外データ(例えば、自我中心の相互作用のビデオ)の視覚表現を事前訓練し、それらをロボットタスクに転送することでこの問題に対処している。
この分野では、より良い事前トレーニングアルゴリズムの開発に重点を置いていますが、データセットの選択は、このパラダイムの成功と同じくらい重要です。
結局、この表現は事前トレーニングされたデータセットに存在する構造やプリエントのみを学習できる。
この目的のために、アルゴリズムに重点を置き、代わりにロボットによる事前学習のデータセット中心の分析を行う。
我々の発見は、この分野で共通の知恵に疑問を呈する。
我々は、従来のビジョンデータセット(ImageNet、Kineetics、100 Days of Handsなど)がヴィジュオモダ表現学習の驚くほど競争力のある選択肢であり、事前学習データセットのイメージ分布がそのサイズよりも重要であることを観察する。
最後に、一般的なシミュレーションベンチマークは実世界のパフォーマンスの信頼性の高いプロキシではなく、単純な正規化戦略が実世界のポリシー学習を劇的に改善できることを示す。
https://data4robotics.github.io Visual representation learning hold great promise for robotics, but is severely hampered by the scarcity and homogeneity of robotics datasets. Recent works address this problem by pre-training visual representations on large-scale but out-of-domain data (e.g., videos of egocentric interactions) and then transferring them to target robotics tasks. While the field is heavily focused on developing better pre-training algorithms, we find that dataset choice is just as important to this paradigm's success. After all, the representation can only learn the structures or priors present in the pre-training dataset. To this end, we flip the focus on algorithms, and instead conduct a dataset centric analysis of robotic pre-training. Our findings call into question some common wisdom in the field. We observe that traditional vision datasets (like ImageNet, Kinetics and 100 Days of Hands) are surprisingly competitive options for visuo-motor representation learning, and that the pre-training dataset's image distribution matters more than its size. Finally, we show that common simulation benchmarks are not a reliable proxy for real world performance and that simple regularization strategies can dramatically improve real world policy learning. https://data4robotics.github.io | 翻訳日:2023-10-16 11:41:32 公開日:2023-10-13 |
# SAIR: 意味認識の意図的表現を学ぶ SAIR: Learning Semantic-aware Implicit Representation ( http://arxiv.org/abs/2310.09285v1 ) ライセンス: Link先を確認 | Canyu Zhang, Xiaoguang Li, Qing Guo, Song Wang | (参考訳) 画像の暗示表現は、連続領域内の任意の座標を対応する色値にマッピングすることができ、画像再構成の強力な能力を示す。
それでも、既存の暗黙の表現アプローチは、ピクセル間のセマンティック情報の連続性を無視して、連続的な外見マッピングの構築にのみ焦点をあてている。
その結果、入力画像内の意味情報が破損した場合、例えば大きな領域が誤る場合に、所望の再構成結果が得られなくなる。
この問題に対処するために,各画素の暗黙的表現をその外見と意味情報(対象が属する画素)の両方に依存するように,意味認識型暗黙的表現(SAIR)を学習することを提案する。
そこで本研究では,(1)大領域が欠落した画像に対して意味的暗黙表現(SIR)を構築する,という2つのモジュールを持つフレームワークを提案する。
連続領域における任意の座標が与えられたとき、ピクセルが属する対象を示す各テキスト整列埋め込みが得られる。
2)SIRに基づく見かけの暗黙の表現(AIR)を構築する。
連続領域内の任意の座標が与えられると、その画素が入力に欠落しているか否かに関わらず、その色を再構成することができる。
画像認識タスクにおいて,新しい意味認識型暗黙的表現法を検証し,本手法が最先端のアプローチをかなりのマージンで超えていることを示す。 Implicit representation of an image can map arbitrary coordinates in the continuous domain to their corresponding color values, presenting a powerful capability for image reconstruction. Nevertheless, existing implicit representation approaches only focus on building continuous appearance mapping, ignoring the continuities of the semantic information across pixels. As a result, they can hardly achieve desired reconstruction results when the semantic information within input images is corrupted, for example, a large region misses. To address the issue, we propose to learn semantic-aware implicit representation (SAIR), that is, we make the implicit representation of each pixel rely on both its appearance and semantic information (\eg, which object does the pixel belong to). To this end, we propose a framework with two modules: (1) building a semantic implicit representation (SIR) for a corrupted image whose large regions miss. Given an arbitrary coordinate in the continuous domain, we can obtain its respective text-aligned embedding indicating the object the pixel belongs. (2) building an appearance implicit representation (AIR) based on the SIR. Given an arbitrary coordinate in the continuous domain, we can reconstruct its color whether or not the pixel is missed in the input. We validate the novel semantic-aware implicit representation method on the image inpainting task, and the extensive experiments demonstrate that our method surpasses state-of-the-art approaches by a significant margin. | 翻訳日:2023-10-16 11:41:10 公開日:2023-10-13 |
# データ駆動補助学習を支援する不連続潜在空間 Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning ( http://arxiv.org/abs/2310.09278v1 ) ライセンス: Link先を確認 | Geri Skenderi, Luigi Capogrosso, Andrea Toaiari, Matteo Denitto, Franco Fummi, Simone Melzi, Marco Cristani | (参考訳) 深層学習では、データ不足や主課題が極めて複雑である状況において、補助的な目的が学習を容易にするためにしばしば用いられる。
このアイデアは、主に複数のタスクを同時に解決することで引き起こされる一般化能力の改善に触発され、より堅牢な共有表現に繋がる。
それでも、望ましい改善をもたらす最適な補助タスクを見つけることは、しばしば手作りのソリューションや高価なメタラーニングアプローチを必要とする重要な問題である。
本稿では,マルチタスク学習 (mtl) モデルにおいて,新しい非関連分類タスクと関連するラベルを発見するために,弱い教師付き不等角化手順を用いた新しい枠組み detaux を提案する。
不等角化手順は表現レベルで動作し、主タスクに関連する部分空間と任意の数の直交部分空間を分離する。
最も不連続な部分空間では、クラスタリング手順を通じて、追加の分類タスクを生成し、関連するラベルを代表とします。
その後、元のデータ、主タスクに関連するラベル、新たに発見されたラベルを任意のMTLフレームワークに入力することができる。
合成データと実データの両方に関する広範囲な検証と様々なアブレーション研究の結果が示され、これまでのところ、不連続表現の学習とmtlの関連性が明らかにされている。
コードは受理次第公開される予定だ。 In deep learning, auxiliary objectives are often used to facilitate learning in situations where data is scarce, or the principal task is extremely complex. This idea is primarily inspired by the improved generalization capability induced by solving multiple tasks simultaneously, which leads to a more robust shared representation. Nevertheless, finding optimal auxiliary tasks that give rise to the desired improvement is a crucial problem that often requires hand-crafted solutions or expensive meta-learning approaches. In this paper, we propose a novel framework, dubbed Detaux, whereby a weakly supervised disentanglement procedure is used to discover new unrelated classification tasks and the associated labels that can be exploited with the principal task in any Multi-Task Learning (MTL) model. The disentanglement procedure works at a representation level, isolating a subspace related to the principal task, plus an arbitrary number of orthogonal subspaces. In the most disentangled subspaces, through a clustering procedure, we generate the additional classification tasks, and the associated labels become their representatives. Subsequently, the original data, the labels associated with the principal task, and the newly discovered ones can be fed into any MTL framework. Extensive validation on both synthetic and real data, along with various ablation studies, demonstrate promising results, revealing the potential in what has been, so far, an unexplored connection between learning disentangled representations and MTL. The code will be made publicly available upon acceptance. | 翻訳日:2023-10-16 11:40:46 公開日:2023-10-13 |
# 抑うつ分類のためのハイブリッドアプローチ:運動活動信号のランダムフォレスト-ANNアンサンブル A Hybrid Approach for Depression Classification: Random Forest-ANN Ensemble on Motor Activity Signals ( http://arxiv.org/abs/2310.09277v1 ) ライセンス: Link先を確認 | Anket Patil, Dhairya Shah, Abhishek Shah, Mokshit Gala | (参考訳) 現在の社会における精神疾患に苦しむ人々の増加について、精神保健の重要性は過大評価されない。
ウェアラブルセンサーはますます普及し、メンタルヘルスの問題をトラッキングし理解する潜在的な手段を提供する。
これらのガジェットは日常の活動をモニターするだけでなく、心拍数などのバイタルサインを継続的に記録し、おそらく人の精神状態に関する情報を提供する。
最近の研究は、これらのセンサーと機械学習の手法を併用して、精神状態の異なるパターンを識別し、このデータの潜在的ポテンシャルを単純な活動監視を超えて強調している。
本研究では,うつ病患者のセンサデータを評価するために調整された,ハイブリッドランダムフォレストニューラルネットワークと呼ばれる新しいアルゴリズムを提案する。
本手法は単極性および双極性うつ病患者と健常者の両方を含む特別なデータセットで評価すると80%の精度が得られた。
以上より,センサデータを用いて抑うつ状態を確実に判定するアルゴリズムの可能性を強調し,メンタルヘルス診断の分野に大きく貢献した。 Regarding the rising number of people suffering from mental health illnesses in today's society, the importance of mental health cannot be overstated. Wearable sensors, which are increasingly widely available, provide a potential way to track and comprehend mental health issues. These gadgets not only monitor everyday activities but also continuously record vital signs like heart rate, perhaps providing information on a person's mental state. Recent research has used these sensors in conjunction with machine learning methods to identify patterns relating to different mental health conditions, highlighting the immense potential of this data beyond simple activity monitoring. In this research, we present a novel algorithm called the Hybrid Random forest - Neural network that has been tailored to evaluate sensor data from depressed patients. Our method has a noteworthy accuracy of 80\% when evaluated on a special dataset that included both unipolar and bipolar depressive patients as well as healthy controls. The findings highlight the algorithm's potential for reliably determining a person's depression condition using sensor data, making a substantial contribution to the area of mental health diagnostics. | 翻訳日:2023-10-16 11:40:22 公開日:2023-10-13 |
# マルチタスク一貫性制約によるトランスフォーマティブ型マルチモーダル変化検出 Transformer-based Multimodal Change Detection with Multitask Consistency Constraints ( http://arxiv.org/abs/2310.09276v1 ) ライセンス: Link先を確認 | Biyuan Liu, Huaixin Chen, Kun Li, Michael Ying Yang | (参考訳) 変化検出は、経時的な反復を分析する上で、地球観測において基本的な役割を担っている。
しかし、近年の研究では、単一のモーダルアプローチに比べて実用的、技術的優位性を示すマルチモーダルデータの利用を無視している。
本研究は,デジタルサーフェスモデル(DSM)データと異なるタイミングで捉えた空中画像を利用して,2Dを超える変化を検出することに焦点を当てる。
我々は,現在の変化検出手法が,意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に苦しむことを観察する。
この課題に対処するために,クロスアテンションによる多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。
高さ変化しきい値化による擬似変化の獲得と、重複領域における意味変化と擬似変化の差異の最小化を含むマルチモーダル関係を確立するために、一貫性制約を採用する。
オランダの3都市を含むDSM-to-imageマルチモーダルデータセットが構築された。
クロス次元入力からのbeyond-2d変化検出のための新しい基盤を提供する。
提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から一貫したマルチタスク優位性を示す。
さらに、一貫性戦略は他の手法にシームレスに適応でき、有望な改善をもたらす。 Change detection plays a fundamental role in Earth observation for analyzing temporal iterations over time. However, recent studies have largely neglected the utilization of multimodal data that presents significant practical and technical advantages compared to single-modal approaches. This research focuses on leveraging digital surface model (DSM) data and aerial images captured at different times for detecting change beyond 2D. We observe that the current change detection methods struggle with the multitask conflicts between semantic and height change detection tasks. To address this challenge, we propose an efficient Transformer-based network that learns shared representation between cross-dimensional inputs through cross-attention. It adopts a consistency constraint to establish the multimodal relationship, which involves obtaining pseudo change through height change thresholding and minimizing the difference between semantic and pseudo change within their overlapping regions. A DSM-to-image multimodal dataset encompassing three cities in the Netherlands was constructed. It lays a new foundation for beyond-2D change detection from cross-dimensional inputs. Compared to five state-of-the-art change detection methods, our model demonstrates consistent multitask superiority in terms of semantic and height change detection. Furthermore, the consistency strategy can be seamlessly adapted to the other methods, yielding promising improvements. | 翻訳日:2023-10-16 11:40:04 公開日:2023-10-13 |
# タスクとコンテキストがドライバーの視線配分に及ぼす影響の理解とモデル化 Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation ( http://arxiv.org/abs/2310.09275v1 ) ライセンス: Link先を確認 | Iuliia Kotseruba and John K. Tsotsos | (参考訳) ドライバーが何を見ているかを理解することは、ドライバーのトレーニング、監視、支援、そして自動運転を含む多くのアプリケーションにとって重要である。
伝統的に、人間の視覚的注意に影響する要因はボトムアップとトップダウン(タスクとコンテキスト駆動)に分けられている。
どちらもドライバーの視線配分において役割を担っているが、既存のモデリングアプローチのほとんどはボトムアップ・サリエンシーのために開発された技術を適用しており、タスクやコンテキストの影響を明示的に考慮していない。
同様に、共通運転注意ベンチマークは関連するタスクとコンテキストアノテーションを欠いている。
そこで,運転者の視線予測のための因子の解析とモデル化を実現するために,以下のことを提案する。
1) 一般的なDR(eye)VEデータセットの欠点に対処し、タスクとコンテキストを駆動するためのフレーム単位のアノテーションで拡張する。
2) 精度とドライバーの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、それらを新しいアノテーションで解析する。
3) ドライバーの視線予測を明示的な行動と文脈情報で調整し, DR(eye)VE全体のSOTA性能(24\% KLD, 89\% NSS)と, 行動・安全クリティカルな交差点シナリオ(10-30\% KLD)のサブセットにおいて有意に向上させる新しいモデルを提案する。
拡張アノテーション、モデルと評価のためのコードも公開されている。 Understanding what drivers look at is important for many applications, including driver training, monitoring, and assistance, as well as self-driving. Traditionally, factors affecting human visual attention have been divided into bottom-up (involuntary attraction to salient regions) and top-down (task- and context-driven). Although both play a role in drivers' gaze allocation, most of the existing modeling approaches apply techniques developed for bottom-up saliency and do not consider task and context influences explicitly. Likewise, common driving attention benchmarks lack relevant task and context annotations. Therefore, to enable analysis and modeling of these factors for drivers' gaze prediction, we propose the following: 1) address some shortcomings of the popular DR(eye)VE dataset and extend it with per-frame annotations for driving task and context; 2) benchmark a number of baseline and SOTA models for saliency and driver gaze prediction and analyze them w.r.t. the new annotations; and finally, 3) a novel model that modulates drivers' gaze prediction with explicit action and context information, and as a result significantly improves SOTA performance on DR(eye)VE overall (by 24\% KLD and 89\% NSS) and on a subset of action and safety-critical intersection scenarios (by 10--30\% KLD). Extended annotations, code for model and evaluation will be made publicly available. | 翻訳日:2023-10-16 11:39:44 公開日:2023-10-13 |
# レトロスペクティブフォールバック:不確実な世界における再合成計画 Retro-fallback: retrosynthetic planning in an uncertain world ( http://arxiv.org/abs/2310.09270v1 ) ライセンス: Link先を確認 | Austin Tripp, Krzysztof Maziarz, Sarah Lewis, Marwin Segler, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 再合成は、よりシンプルで購入可能な分子から望ましい分子を作るために一連の化学反応を提案するタスクである。
これまでの研究では、様々なメトリクス(例えば、最短、最低コスト)の最適解を求めるアルゴリズムが提案されていたが、これらの研究は一般的に、反応の空間について不完全な知識を持っているという事実を見落としている。
本稿では, この不確かさを考慮し, 確率過程の観点からのレトロシンセシスの新規な定式化を提案する。
そこで我々は,少なくとも1つの合成計画がラボで実行可能である確率を最大化する,レトロフォールバックと呼ばれる新しいグリーディアルゴリズムを提案する。
In-silicoベンチマークを用いて、レトロフォールバックが一般的なMCTSやレトロ*アルゴリズムよりも優れた合成計画を生成することを示した。 Retrosynthesis is the task of proposing a series of chemical reactions to create a desired molecule from simpler, buyable molecules. While previous works have proposed algorithms to find optimal solutions for a range of metrics (e.g. shortest, lowest-cost), these works generally overlook the fact that we have imperfect knowledge of the space of possible reactions, meaning plans created by the algorithm may not work in a laboratory. In this paper we propose a novel formulation of retrosynthesis in terms of stochastic processes to account for this uncertainty. We then propose a novel greedy algorithm called retro-fallback which maximizes the probability that at least one synthesis plan can be executed in the lab. Using in-silico benchmarks we demonstrate that retro-fallback generally produces better sets of synthesis plans than the popular MCTS and retro* algorithms. | 翻訳日:2023-10-16 11:39:15 公開日:2023-10-13 |
# maer-in-a-shoebox:可搬式プラグアンドプレイメーザー装置 `Maser-in-a-Shoebox': a portable plug-and-play maser device at room-temperature and zero magnetic-field ( http://arxiv.org/abs/2310.09269v1 ) ライセンス: Link先を確認 | Wern Ng, Yongqiang Wen, Max Attwood, Daniel C Jones, Mark Oxborrow, Neil McN. Alford, Daan M. Arroo | (参考訳) レーザーのマイクロ波アナログであるメーザーは、室温でゼロの磁場でマッサードするゲイン媒体の発見によってルネッサンスを経験している。
しかし、デバイスは環境条件下では簡単に実演できるが、レーザーが享受できるユビキタス性と可搬性を達成することは、これまでも困難であった。
靴箱の大きさに収まる小型のメーザーキャビティ、ゲイン材料およびレーザーポンプ源を備えたメーザー装置を提案する。
使用したゲイン媒体はパラテルフェニルでペンタセンドープされ、より小さいフォームファクタでもピーク電力が5dBmの強いメイシング信号を与える。
デバイスはまた、共振周波数から1.5MHzの小さな範囲内で異なる周波数でマッサージされる。
可搬性とシンプルさは5kg以下で、特に低ノイズ増幅器、量子センサー、キャビティ量子電磁力学、長距離通信といった分野におけるデモンストレーターへの道を開く。 Masers, the microwave analogues of lasers, have seen a renaissance owing to the discovery of gain media that mase at room-temperature and zero-applied magnetic field. However, despite the ease with which the devices can be demonstrated under ambient conditions, achieving the ubiquity and portability which lasers enjoy has to date remained challenging. We present a maser device with a miniaturized maser cavity, gain material and laser pump source that fits within the size of a shoebox. The gain medium used is pentacene-doped in para-terphenyl and it is shown to give a strong masing signal with a peak power of -5 dBm even within a smaller form factor. The device is also shown to mase at different frequencies within a small range of 1.5 MHz away from the resonant frequency. The portability and simplicity of the device, which weighs under 5 kg, paves the way for demonstrators particularly in the areas of low-noise amplifiers, quantum sensors, cavity quantum electrodynamics and long-range communications. | 翻訳日:2023-10-16 11:39:00 公開日:2023-10-13 |
# 遺伝的アルゴリズムは分子生成の強力なベースラインである Genetic algorithms are strong baselines for molecule generation ( http://arxiv.org/abs/2310.09267v1 ) ライセンス: Link先を確認 | Austin Tripp, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 分子の生成は、方向付けと非方向付けの両方で、薬物発見パイプラインの大きな部分を占めている。
遺伝的アルゴリズム(GA)は既知の分子をランダムに修飾することで分子を生成する。
本稿では,GAはそのようなタスクに対して非常に強力なアルゴリズムであり,複雑な機械学習手法よりも優れていることを示す。
したがって、ピアレビューにおいて、新しいアルゴリズムは、GA基準と呼ばれるGAよりも明確な優位性を持つべきであると主張する。
最終的に我々の研究は、分子生成に関する多くの研究は再評価されるべきであることを示唆している。 Generating molecules, both in a directed and undirected fashion, is a huge part of the drug discovery pipeline. Genetic algorithms (GAs) generate molecules by randomly modifying known molecules. In this paper we show that GAs are very strong algorithms for such tasks, outperforming many complicated machine learning methods: a result which many researchers may find surprising. We therefore propose insisting during peer review that new algorithms must have some clear advantage over GAs, which we call the GA criterion. Ultimately our work suggests that a lot of research in molecule generation should be re-assessed. | 翻訳日:2023-10-16 11:38:37 公開日:2023-10-13 |