このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231225となっている論文です。

PDF登録状況(公開日: 20231225)

TitleAuthorsAbstract論文公表日・翻訳日
# セキュアコヒーレント・パッシブ光ネットワークのためのパイロットベース鍵分布と暗号化

Pilot-Based Key Distribution and Encryption for Secure Coherent Passive Optical Networks ( http://arxiv.org/abs/2311.02554v3 )

ライセンス: Link先を確認
Haide Wang, Ji Zhou, Qingxin Lu, Jianrui Zeng, Yongqing Liao, Weiping Liu, Changyuan Yu, Zhaohui Li, (参考訳) 受動光ネットワーク(PON)のセキュリティ問題は、放送送信によって常に懸念されてきた。 コヒーレントPONの物理層セキュリティ強化は、伝送性能の向上と同じくらい重要である。 本稿では,安全なコヒーレントPONのための4レベルパルス振幅変調(GCS-PAM4)の鍵分布を最適化する高度な暗号化標準(AES)アルゴリズムと幾何コンステレーションを提案する。 GCS-PAM4パイロットの第1ビットはハードウェア効率の良いキャリア位相回復(CPR)に使われ、第2ビットは追加のオーバーヘッドを占有することなくキー配布に使用される。 鍵ビットは極コードによって符号化され、エラーのない分布が保証される。 すべてのコードワードに対して、コヒーレントPONのセキュリティを改善するために、頻繁なキー更新が許可されている。 デジタルサブキャリア多重化を用いた200-GbpsセキュアコヒーレントPONの実験結果から,GCS-PAM4パイロットベースの鍵分布は上流送信時にエラーなく,下流送信時のAESアルゴリズムにより盗聴を防止できることがわかった。 さらに、GCS-PAM4パイロットを使用したCPRのパフォーマンス上のペナルティは、バイナリフェーズシフトキーングパイロットと比べてほとんどない。

The security issues of passive optical networks (PONs) have always been a concern due to broadcast transmission. Physical-layer security enhancement for the coherent PON should be as significant as improving transmission performance. In this paper, we propose the advanced encryption standard (AES) algorithm and geometric constellation shaping four-level pulse amplitude modulation (GCS-PAM4) pilot-based key distribution for secure coherent PON. The first bit of the GCS-PAM4 pilot is used for the hardware-efficient carrier phase recovery (CPR), while the second bit is utilized for key distribution without occupying the additional overhead. The key bits are encoded by the polar code to ensure error-free distribution. Frequent key updates are permitted for every codeword to improve the security of coherent PON. The experimental results of the 200-Gbps secure coherent PON using digital subcarrier multiplexing with 16-ary quadrature amplitude modulation show that the GCS-PAM4 pilot-based key distribution could be error-free at upstream transmission without occupying the additional overhead and the eavesdropping would be prevented by AES algorithm at downstream transmission. Moreover, there is almost no performance penalty on the CPR using the GCS-PAM4 pilot compared to the binary phase shift keying pilot.
翻訳日:2024-03-25 13:45:54 公開日:2023-12-25
# IoTベースのスマートグリッドに応用された機械学習アプローチの脆弱性

Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review ( http://arxiv.org/abs/2308.15736v3 )

ライセンス: Link先を確認
Zhenyong Zhang, Mengxiang Liu, Mingyang Sun, Ruilong Deng, Peng Cheng, Dusit Niyato, Mo-Yuen Chow, Jiming Chen, (参考訳) 機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。 しかし、MLの信頼性は深刻な問題であり、MLベースのスマートグリッドアプリケーション(MLsgAPPs)のトレンドに対応するために対処する必要がある。 電力信号に注入される対向歪みは、システムの通常の制御と操作に大きな影響を与える。 したがって、安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。 本稿では,MLsgAPPの攻撃・防御手法の設計における最近の進歩を概観する。 MLセキュリティに関する従来の調査とは異なり、電力システムの特徴に焦点を当てたMLsgAPPsのセキュリティに関する最初のレビュー作業である。 まず、MLsgAPPに対する敵攻撃を構築するための具体例を強調します。 次に、電力系統とMLモデルの両面からMLsgAPPの脆弱性を分析する。 その後、MLsgAPPに対する敵の攻撃を発生・伝達・流通・消費のシナリオで検証・比較する総合的な調査を行い、その対策を防御する攻撃に応じて検討する。 最後に,攻撃者側と守備側について,今後の研究方針について考察する。 また、大規模言語モデルベース(例えば、ChatGPT)パワーシステムアプリケーションの潜在的な脆弱性を分析する。 総合的に、MLsgAPPsの敵問題の調査により多くの研究者が貢献することを奨励する。

Machine learning (ML) sees an increasing prevalence of being used in the internet-of-things (IoT)-based smart grid. However, the trustworthiness of ML is a severe issue that must be addressed to accommodate the trend of ML-based smart grid applications (MLsgAPPs). The adversarial distortion injected into the power signal will greatly affect the system's normal control and operation. Therefore, it is imperative to conduct vulnerability assessment for MLsgAPPs applied in the context of safety-critical power systems. In this paper, we provide a comprehensive review of the recent progress in designing attack and defense methods for MLsgAPPs. Unlike the traditional survey about ML security, this is the first review work about the security of MLsgAPPs that focuses on the characteristics of power systems. We first highlight the specifics for constructing the adversarial attacks on MLsgAPPs. Then, the vulnerability of MLsgAPP is analyzed from both the aspects of the power system and ML model. Afterward, a comprehensive survey is conducted to review and compare existing studies about the adversarial attacks on MLsgAPPs in scenarios of generation, transmission, distribution, and consumption, and the countermeasures are reviewed according to the attacks that they defend against. Finally, the future research directions are discussed on the attacker's and defender's side, respectively. We also analyze the potential vulnerability of large language model-based (e.g., ChatGPT) power system applications. Overall, we encourage more researchers to contribute to investigating the adversarial issues of MLsgAPPs.
翻訳日:2024-03-19 07:12:46 公開日:2023-12-25
# 中国大湾地域における金融サービスにおけるブロックチェーン導入の課題

Challenges of Blockchain adoption in financial services in China's Greater Bay Area ( http://arxiv.org/abs/2312.15573v1 )

ライセンス: Link先を確認
Xiongfei Zhao, Yain-Whar Si, (参考訳) 中国の大都市圏(広東-香港-マカオ)では、金融サービスにおけるブロックチェーン技術の利用の増加は、多くの利害関係者に利益をもたらす可能性がある。 ブロックチェーンは、分散アーキテクチャ、タンパー保護データ構造、トレーサブルトランザクションなどの特徴で知られている。 これらの機能により、ブロックチェーンは金融サービス分野でアプリケーションを開発するためのプラットフォームとして好まれる。 一方、ブロックチェーンが既存の金融システムと競合したり、置き換えたりする可能性について疑問が投げかけられている。 本稿では、保険、銀行、支払い、資産取引、融資、送金、金融業界におけるモノのインターネット(IoT)、金融とガバナンスにおける企業レベルの相互作用に関する洞察を提供する。 ブロックチェーンの普及に対する障壁、特にマイニング報酬を支配した取引手数料のリスクについてレビューする。 新興のブロックチェーン技術と現実世界のアプリケーションに関するインセンティブの問題を比較することで、ブロックチェーンの研究者や金融サービス分野の開発者にとって、この論文が貴重な参考資料になり得ることを願っています。

In China's Greater Bay Area (Guangdong-Hong Kong-Macao), the increasing use of Blockchain technology in financial services has the potential to generate benefits for many stakeholders. Blockchains are known for their distinctive features, such as decentralized architecture, tamper-proof data structures, and traceable transactions. These features make Blockchain a preferred choice of platform for developing applications in financial service areas. Meanwhile, some questions have been raised regarding Blockchain's suitability to compete with or even replace existing financial systems. This paper provides insights into the current progress of Blockchain applications in insurance, banking, payments, asset trading, loans, remittances, the Internet of Things (IoT) for the finance industry, financial inclusions, and enterprise-level interaction in finance and governance. We review the barriers to widespread Blockchain adoption, especially the risks when transaction fees dominate mining rewards. By comparing the emerging Blockchain technologies and incentive issues related to real-world applications, we hope that this paper can serve as a valuable source of reference for Blockchain researchers and developers in financial service areas.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-25
# 鉱業ドメインベースの政策

Mining Domain-Based Policies ( http://arxiv.org/abs/2312.15596v1 )

ライセンス: Link先を確認
Si Zhang, Philip W. L. Fong, (参考訳) 保護ドメインはアクセス制御において最も永続的な概念の1つである。 同一アクセス制御特性を持つエンティティは、同じ保護ドメインの下にグループ化され、ドメインベースのポリシーは、保護ドメイン全体に対してアクセス権限を割り当てる。 IoT(Internet of Things)の出現により、デバイスは主題とオブジェクトの両方の役割を担うようになる。 ドメインベースのポリシーは、この役割の対称性をサポートするのに特に適しています。 本稿では、不完全なアクセスログからドメインベースのポリシーをマイニングする。 まず、ドメインベースのポリシーの理論を構築し、任意のアクセス制御行列から最適なドメインベースのポリシーを構築する多項式時間アルゴリズムを構築した。 次に、ドメインベースの政策マイニング(DBPM)の問題と、ドメインと型強制(DTEPM)のマイニングポリシー(DTEPM)の問題の両方がNP完全であることを示した。 次に,DBPM を解くために MaxSAT ソルバを使用するという現実的な問題を考察した。 我々は、この目的のために洗練された符号化を考案し、それらの相対的な性能を実証的に評価した。 そこで本稿は,DBPMの今後の研究の土台となる。

Protection domains are one of the most enduring concepts in Access Control. Entities with identical access control characteristics are grouped under the same protection domain, and domain-based policies assign access privileges to the protection domain as a whole. With the advent of the Internet of Things (IoT), devices play the roles of both subjects and objects. Domain-based policies are particularly suited to support this symmetry of roles. This paper studies the mining of domain-based policies from incomplete access logs. We began by building a theory of domain-based policies, resulting in a polynomial-time algorithm that constructs the optimal domain-based policy out of a given access control matrix. We then showed that the problem of domain-based policy mining (DBPM) and the related problem of mining policies for domain and type enforcement (DTEPM) are both NP-complete. Next, we looked at the practical problem of using a MaxSAT solver to solve DBPM. We devised sophisticated encodings for this purpose, and empirically evaluated their relative performance. This paper thus lays the groundwork for future study of DBPM.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-25
# ワームホールの非局所再構成と非可逆性

Non-locally Reconstructed both Sides of Wormhole and its Non-Traversability ( http://arxiv.org/abs/2402.09412v1 )

ライセンス: Link先を確認
H. Hadi(参考訳) エンタングルドブラックホール間のワームホールが持つ理論的意味は、非局所性や超光信号の点で重要である。 2つの最大絡み合ったブラックホールの絡み合い状態を利用することで、ワームホールを構築することができる。 この文脈では、1つのブラックホールの近水平領域の真空状態を刺激し、他のブラックホールの近水平領域にある観測者への情報の伝達を可能にすることで、通過可能なワームホールを実現することができる。 しかし、この現象の発生は、非局所的な再構成を行うブラックホールの近水平領域がER=EPR対応と呼ばれる場合に制限される。 この対応はワームホールの潜在的な移動可能性と超光信号の発生に根本的な制限を与える。

The theoretical implications of a traversable wormhole between entangled black holes are significant in terms of non-locality and superluminal signaling. By utilizing the entangled states of two maximally entangled black holes, it becomes possible to construct a wormhole. In this context, the traversable wormhole can be achieved by exciting the vacuum state of the near-horizon region of one black hole, allowing for the transmission of information to an observer situated in the near-horizon region of the other black hole through the wormhole. However, the occurrence of this phenomenon is restricted when the near-horizon regions of the black holes undergo a non-local reconstruction, which is referred to as the ER=EPR correspondence. We argue that this correspondence imposes a fundamental limitation on the potential traversability of wormhole and the occurrence of superluminal signaling.
翻訳日:2024-02-18 13:15:13 公開日:2023-12-25
# エンジニアリング企業におけるAI統合のための正しい道を選ぶ:戦略ガイド

Choosing the Right Path for AI Integration in Engineering Companies: A Strategic Guide ( http://arxiv.org/abs/2402.00011v1 )

ライセンス: Link先を確認
Rimma Dzhusupova, Jan Bosch, Helena Holmstrom Olsson(参考訳) エネルギー部門で活動するエンジニアリング、調達、建設(EPC)ビジネスは、人工知能(AI)の重要性の高まりを認識している。 多くのEPC企業とそのクライアントは、手作業の削減、生産性の向上、高度に競争力のある業界におけるエンジニアリングされたインストールの今後の運用の合理化のために、AIをビジネスに適用するメリットを認識している。 現在のAI市場は、この業界をサポートするさまざまなソリューションとサービスを提供しているが、企業は、ビジネス戦略と利用可能なリソースに基づいて、AIテクノロジを最も有益な方法で取得する方法を理解する必要がある。 本稿では,EPC企業におけるAIへの転換の枠組みについて述べる。 私たちの研究は、世界最大のEPC請負業者の1つでAIベースの製品開発のプロジェクト実行の例と、すでにAIをエンジニアリングソリューションに統合しているEPCベンダー企業の洞察に基づいています。 論文では、ビジネス理解からデプロイメント、さらなる進化に至るまで、AIソリューション構築のライフサイクル全体について取り上げている。 このフレームワークは、大規模な国際エンジニアリング企業におけるaiプロジェクト開発へのアプローチ選択に様々な要因がどのように影響するかを特定する。 最適なアプローチ選択のための実践的ガイドを提示することにより、ビジネスにAI技術を統合するためのAIプロジェクト管理と組織戦略の研究に貢献する。 このフレームワークは、エンジニアリング企業がビジネス価値を生み出すための最適なAIアプローチを選択するのに役立つかもしれない。

The Engineering, Procurement and Construction (EPC) businesses operating within the energy sector are recognizing the increasing importance of Artificial Intelligence (AI). Many EPC companies and their clients have realized the benefits of applying AI to their businesses in order to reduce manual work, drive productivity, and streamline future operations of engineered installations in a highly competitive industry. The current AI market offers various solutions and services to support this industry, but organizations must understand how to acquire AI technology in the most beneficial way based on their business strategy and available resources. This paper presents a framework for EPC companies in their transformation towards AI. Our work is based on examples of project execution of AI-based products development at one of the biggest EPC contractors worldwide and on insights from EPC vendor companies already integrating AI into their engineering solutions. The paper covers the entire life cycle of building AI solutions, from initial business understanding to deployment and further evolution. The framework identifies how various factors influence the choice of approach toward AI project development within large international engineering corporations. By presenting a practical guide for optimal approach selection, this paper contributes to the research in AI project management and organizational strategies for integrating AI technology into businesses. The framework might also help engineering companies choose the optimum AI approach to create business value.
翻訳日:2024-02-11 17:27:23 公開日:2023-12-25
# Going Viral: TikTok上の技術製品の広告分析

Going Viral: An Analysis of Advertising of Technology Products on TikTok ( http://arxiv.org/abs/2402.00010v1 )

ライセンス: Link先を確認
Ekansh Agrawal(参考訳) ソーシャルメディアは広告業界を変え、消費者にリーチし、接続するための必須のツールとなった。 その共有とエンゲージメントはブランドの露出を増幅するが、コスト効率の良いオプションはビジネスに柔軟な広告ソリューションを提供する。 tiktokは最近のソーシャルメディアプラットフォームで、大きなユーザーベースとバイラルな性質から、広告、特にeコマースの分野で人気を集めている。 TikTokの月間アクティブユーザー数は2021年第4四半期に12億人で、2021年の売上は推定46億ドルだった。 バイラル性はブランドの露出を大きく増加させ、従来のマーケティングだけではアクセスできない膨大なオーディエンスに到達する可能性がある。 テクノロジー製品の広告は、TikTokに豊富なバイラル広告の例です。 この論文の目的は、クリエイター、コミュニティ活動、レコメンデーションアルゴリズムがtiktokにおけるテクノロジー製品の広告のバイラル性に与える影響を理解することである。 本研究は、感情分析、コンテンツ特性、インフルエンサーの役割など、バイラル性の様々な側面を分析する。 データスクラップと自然言語処理ツールを使って2000のTikTokポストと274,651のメタデータを分析し、TikTok上のバイラルテクノロジー製品広告のニュアンスに関する洞察を提供する。

Social media has transformed the advertising landscape, becoming an essential tool for reaching and connecting with consumers. Its sharing and engagement features amplify brand exposure, while its cost-effective options provide businesses with flexible advertising solutions. TikTok is a more recent social media platform that has gained popularity for advertising, particularly in the realm of e-commerce, due to its large user base and viral nature. TikTok had 1.2 billion monthly active users in Q4 2021, generating an estimated $4.6 billion revenue in 2021. Virality can lead to a massive increase in brand exposure, reaching a vast audience that may not have been accessible through traditional marketing efforts alone. Advertisements for technological products are an example of such viral ads that are abundant on TikTok. The goal of this thesis is to understand how creators, community activity, and the recommendation algorithm influence the virality of advertisements for technology products on TikTok. The study analyzes various aspects of virality, including sentiment analysis, content characteristics, and the role of influencers. It employs data scraping and natural language processing tools to analyze metadata from 2,000 TikTok posts and 274,651, offering insights into the nuances of viral tech product advertising on TikTok.
翻訳日:2024-02-11 17:27:02 公開日:2023-12-25
# 深度カメラを用いた耳当てシステムとアクティブヘッドレスト

Active headrest combined with a depth camera-based ear-positioning system ( http://arxiv.org/abs/2401.10256v1 )

ライセンス: Link先を確認
Yuteng Liu, Haowen Li, Haishan Zou, Jing Lu, Zhibin Lin(参考訳) アクティブヘッドレストは、アクティブノイズ制御(anc)システムに基づいて耳まわりの低周波ノイズを低減することができる。 固定制御フィルタを用いた制御系とリモートマイクを用いた適応制御系は、ヘッドが元の位置にあるときにノイズ低減性能が良好である。 しかし、頭部が動いた場合、その性能は著しく低下する。 本稿では,この問題を解決するために,深度カメラを用いた人耳配置システムを提案する。 システムはRTMposeモデルを用いて、カラーフレーム内の耳の2次元(2D)位置を推定し、深度カメラで深度フレーム内の対応する3次元(3D)座標を導出する。 実験の結果,耳の位置決めシステムは耳の動きを効果的に追跡でき,人間の頭部の移動や回転時にアクティブヘッドレストと組み合わされた広帯域ノイズ低減性能が著しく向上することがわかった。

Active headrests can reduce low-frequency noise around ears based on active noise control (ANC) system. Both the control system using fixed control filters and the remote microphone-based adaptive control system provide good noise reduction performance when the head is in the original position. However, their performance degrades significantly when the head is in motion. In this paper, a human ear-positioning system based on the depth camera is introduced to address this problem. The system uses RTMpose model to estimate the two-dimensional (2D) positions of the ears in the color frame, and then derives the corresponding three-dimensional (3D) coordinates in the depth frame with a depth camera. Experimental results show that the ear-positioning system can effectively track the movement of ears, and the broadband noise reduction performance of the active headrest combined with the system is significantly improved when the human head is translating or rotating.
翻訳日:2024-01-28 16:29:15 公開日:2023-12-25
# 逆材料設計に向けた改良型1温材料モデリングのためのVAE

VAE for Modified 1-Hot Generative Materials Modeling, A Step Towards Inverse Material Design ( http://arxiv.org/abs/2401.06779v1 )

ライセンス: Link先を確認
Khalid El-Awady(参考訳) 本研究では,表現が困難である物理的制約を符号化できる生成モデルの構築について検討する。 特定の性質を持つ材料を設計しようとする逆物質設計の問題に対して, 提案する新規材料の合成有効性を確保することが重要な課題である。 暗黙のデータセットの関係を符号化し、ある材料をデータセット内の他の材料に分解し、その特性を潜在空間に保存し、それを用いて新しいサンプルを生成するvaeモデルを示す。 これは、特にシーケンシャルな逆材料設計において有用であり、深い強化学習を通じて訓練されたポリシーを用いて要素を順次追加(または除去)することによって、特定の特性を持つ材料を設計しようとする創発的な研究領域である。

We investigate the construction of generative models capable of encoding physical constraints that can be hard to express explicitly. For the problem of inverse material design, where one seeks to design a material with a prescribed set of properties, a significant challenge is ensuring synthetic viability of a proposed new material. We encode an implicit dataset relationships, namely that certain materials can be decomposed into other ones in the dataset, and present a VAE model capable of preserving this property in the latent space and generating new samples with the same. This is particularly useful in sequential inverse material design, an emergent research area that seeks to design a material with specific properties by sequentially adding (or removing) elements using policies trained through deep reinforcement learning.
翻訳日:2024-01-22 12:41:26 公開日:2023-12-25
# SAiD:拡散を伴う音声駆動型ブレンドシェープ顔アニメーション

SAiD: Speech-driven Blendshape Facial Animation with Diffusion ( http://arxiv.org/abs/2401.08655v1 )

ライセンス: Link先を確認
Inkyu Park, Jaewoong Cho(参考訳) 広範な研究にもかかわらず、大規模な視覚音響データセットが不足しているため、音声駆動の3D顔アニメーションは困難である。 ほとんどの先行研究は、最小二乗法を用いて小さなデータセットで回帰モデルを学習することに集中しており、音声から様々な唇の動きを生じさせる困難に遭遇し、生成された出力を精錬するのにかなりの労力を要する。 そこで本研究では,音声と視覚の相互調整バイアスを有する軽量トランスフォーマティブ u-net の拡散モデル (said) を用いた音声駆動型3次元顔アニメーションを提案する。 さらに,ブレンドシェープ顔モデルの音声とパラメータのペアのベンチマークデータセットであるBlendVOCAを導入し,公共資源の不足に対処する。 実験の結果, 提案手法は, ベースラインに対するリップ同期において同等あるいは優れた性能を実現し, より多様な唇の動きを保証し, アニメーション編集プロセスの合理化を図っている。

Speech-driven 3D facial animation is challenging due to the scarcity of large-scale visual-audio datasets despite extensive research. Most prior works, typically focused on learning regression models on a small dataset using the method of least squares, encounter difficulties generating diverse lip movements from speech and require substantial effort in refining the generated outputs. To address these issues, we propose a speech-driven 3D facial animation with a diffusion model (SAiD), a lightweight Transformer-based U-Net with a cross-modality alignment bias between audio and visual to enhance lip synchronization. Moreover, we introduce BlendVOCA, a benchmark dataset of pairs of speech audio and parameters of a blendshape facial model, to address the scarcity of public resources. Our experimental results demonstrate that the proposed approach achieves comparable or superior performance in lip synchronization to baselines, ensures more diverse lip movements, and streamlines the animation editing process.
翻訳日:2024-01-22 09:53:45 公開日:2023-12-25
# 3次元ガウス体積表現を用いたスパースビューCT再構成

Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation ( http://arxiv.org/abs/2312.15676v1 )

ライセンス: Link先を確認
Yingtai Li, Xueming Fu, Shang Zhao, Ruiyang Jin, S. Kevin Zhou(参考訳) Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略であるが、不完全でノイズの多いデータから高品質な画像の再構成は困難である。 近年、3D Gaussianは複雑な自然のシーンをモデル化し、暗黙のニューラル表現(INR)と比較して、高速な収束と新しいビューのレンダリングを実証している。 自然シーンモデリングと新規ビュー合成における3Dガウスの応用から着想を得て, スパースビューCT再構成の可能性について検討した。 我々は,フィルタ付きバックプロジェクション再構成画像からの先行情報を利用してガウスを初期化し,そのパラメータを投影空間の違いを比較することにより更新する。 適応密度制御によりさらに性能が向上する。 INRと比較すると、3Dガウスアンは事前情報により、空空間での学習を明示的にバイパスし、効率よく容量を割り当て、収束を加速する。 3Dガウシアンはまた、高周波の詳細を効率的に学習する。 自己監督で訓練された3dガウス人は、大規模なペアデータの必要性を避ける。 AAPM-Mayoデータセットを用いた実験により,INR法と比較して3次元ガウスが優れた性能が得られることが示された。 この作業は進行中であり、コードは公開される予定である。

Sparse-view CT is a promising strategy for reducing the radiation dose of traditional CT scans, but reconstructing high-quality images from incomplete and noisy data is challenging. Recently, 3D Gaussian has been applied to model complex natural scenes, demonstrating fast convergence and better rendering of novel views compared to implicit neural representations (INRs). Taking inspiration from the successful application of 3D Gaussians in natural scene modeling and novel view synthesis, we investigate their potential for sparse-view CT reconstruction. We leverage prior information from the filtered-backprojection reconstructed image to initialize the Gaussians; and update their parameters via comparing difference in the projection space. Performance is further enhanced by adaptive density control. Compared to INRs, 3D Gaussians benefit more from prior information to explicitly bypass learning in void spaces and allocate the capacity efficiently, accelerating convergence. 3D Gaussians also efficiently learn high-frequency details. Trained in a self-supervised manner, 3D Gaussians avoid the need for large-scale paired data. Our experiments on the AAPM-Mayo dataset demonstrate that 3D Gaussians can provide superior performance compared to INR-based methods. This work is in progress, and the code will be publicly available.
翻訳日:2024-01-15 13:04:43 公開日:2023-12-25
# $\mu$-Net: Cosmic Muon TomographyのためのConvNextベースのU-Net

$\mu$-Net: ConvNext-Based U-Nets for Cosmic Muon Tomography ( http://arxiv.org/abs/2312.17265v1 )

ライセンス: Link先を確認
Li Xin Jed Lim, Ziming Qiu(参考訳) ミューオン散乱トモグラフィーは、通常宇宙線に由来するミューオンを利用して、密度の高い物体の内部を撮影する。 しかし、海面における宇宙線ミューオンのフラックスが低く、物質を移動する際にミューオンが提示する非常に複雑な相互作用のため、既存の再構成アルゴリズムは低分解能と高ノイズに悩まされることが多い。 本研究では,ミューオン軌道を予測するためのMLPと,散乱点をボクセルに変換するConvNeXtベースのU-Netからなる,新しい2段階深層学習アルゴリズムである$\mu$-Netを開発する。 $\mu$-netは1024ミューオンの量で17.14 psnrの最先端性能を達成し、最も近いアプローチアルゴリズムや最大確率・期待最大化アルゴリズムといった従来の再構成アルゴリズムよりも優れている。 さらに, 本手法はミューオン運動量の不正確さや限定的な検出器分解能など, さまざまな腐敗に対して頑健であることがわかった。 muon検出をvoxelにマップする,最初の大規模データセットも生成して公開しています。 我々は、この分野に革命をもたらす深層学習の可能性について、我々の研究がさらなる調査を引き起こすことを期待している。

Muon scattering tomography utilises muons, typically originating from cosmic rays to image the interiors of dense objects. However, due to the low flux of cosmic ray muons at sea-level and the highly complex interactions that muons display when travelling through matter, existing reconstruction algorithms often suffer from low resolution and high noise. In this work, we develop a novel two-stage deep learning algorithm, $\mu$-Net, consisting of an MLP to predict the muon trajectory and a ConvNeXt-based U-Net to convert the scattering points into voxels. $\mu$-Net achieves a state-of-the-art performance of 17.14 PSNR at the dosage of 1024 muons, outperforming traditional reconstruction algorithms such as the point of closest approach algorithm and maximum likelihood and expectation maximisation algorithm. Furthermore, we find that our method is robust to various corruptions such as inaccuracies in the muon momentum or a limited detector resolution. We also generate and publicly release the first large-scale dataset that maps muon detections to voxels. We hope that our research will spark further investigations into the potential of deep learning to revolutionise this field.
翻訳日:2024-01-15 12:51:57 公開日:2023-12-25
# ESGReveal:ESGレポートから構造化データを抽出するためのLLMベースのアプローチ

ESGReveal: An LLM-based approach for extracting structured data from ESG reports ( http://arxiv.org/abs/2312.17264v1 )

ライセンス: Link先を確認
Yi Zou, Mengying Shi, Zhongjie Chen, Zhu Deng, ZongXiong Lei, Zihan Zeng, Shiming Yang, HongXiang Tong, Lei Xiao, Wenwen Zhou(参考訳) esgrevealは、企業報告から環境・社会・ガバナンス(esg)データを効率的に抽出・分析するための革新的な手法であり、信頼性の高いesg情報検索の必要性に資する。 このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。 ESGRevealシステムは、ターゲットクエリのためのESGメタデータモジュール、データベースを組み立てる前処理モジュール、データ抽出のためのLLMエージェントを含む。 その効果は、2022年に香港証券取引所に上場した166社のesgレポートを用いて評価され、包括的産業と市場資本の表現が保証された。 ESGRevealを利用することで、GPT-4によるESGレポートに関する重要な洞察が得られ、データ抽出の76.9%、開示分析の83.7%が得られた。 これはesgデータ分析精度を洗練するフレームワークの能力を強調している。 さらに、環境および社会データの開示がそれぞれ69.5%、57.2%と強化ESG開示の需要が明らかにされ、企業透明性の追求が示唆された。 ESGRevealの現在のイテレーションでは、将来の拡張を意図した機能である画像情報を処理していないが、研究は、様々なLLMの分析能力をさらに発展させ比較することを求めている。 まとめると、ESGRevealはESGデータ処理の進歩であり、利害関係者に企業サステナビリティの取り組みをよりよく評価し前進させるための洗練されたツールを提供する。 その進化は、企業報告の透明性を促進し、より広範な持続可能な開発目標に合わせることに有望である。

ESGReveal is an innovative method proposed for efficiently extracting and analyzing Environmental, Social, and Governance (ESG) data from corporate reports, catering to the critical need for reliable ESG information retrieval. This approach utilizes Large Language Models (LLM) enhanced with Retrieval Augmented Generation (RAG) techniques. The ESGReveal system includes an ESG metadata module for targeted queries, a preprocessing module for assembling databases, and an LLM agent for data extraction. Its efficacy was appraised using ESG reports from 166 companies across various sectors listed on the Hong Kong Stock Exchange in 2022, ensuring comprehensive industry and market capitalization representation. Utilizing ESGReveal unearthed significant insights into ESG reporting with GPT-4, demonstrating an accuracy of 76.9% in data extraction and 83.7% in disclosure analysis, which is an improvement over baseline models. This highlights the framework's capacity to refine ESG data analysis precision. Moreover, it revealed a demand for reinforced ESG disclosures, with environmental and social data disclosures standing at 69.5% and 57.2%, respectively, suggesting a pursuit for more corporate transparency. While current iterations of ESGReveal do not process pictorial information, a functionality intended for future enhancement, the study calls for continued research to further develop and compare the analytical capabilities of various LLMs. In summary, ESGReveal is a stride forward in ESG data processing, offering stakeholders a sophisticated tool to better evaluate and advance corporate sustainability efforts. Its evolution is promising in promoting transparency in corporate reporting and aligning with broader sustainable development aims.
翻訳日:2024-01-15 12:51:34 公開日:2023-12-25
# TACIT: ドメイン間テキスト分類のためのターゲット非依存型特徴分散フレームワーク

TACIT: A Target-Agnostic Feature Disentanglement Framework for Cross-Domain Text Classification ( http://arxiv.org/abs/2312.17263v1 )

ライセンス: Link先を確認
Rui Song, Fausto Giunchiglia, Yingji Li, Mingjie Tian, Hao Xu(参考訳) クロスドメインテキスト分類(cross-domain text classification)は、ラベルリッチソースドメインからラベルパウダーターゲットドメインへのモデルを転送することを目的としている。 多くのアプローチはドメイン不変の特徴を捉え、ドメイン間の一般化を促進する。 しかし、これらの手法は対象ドメインが提供する未ラベルのサンプルに依存しており、対象ドメインが非依存な場合にモデルを非効率にする。 さらに、これらのモデルはソース領域でのショートカット学習によって容易に妨害され、ドメイン一般化能力の改善を妨げる。 本稿では,可変オートエンコーダによるロバスト特徴と非ロバスト特徴を適応的に分離する,対象領域非依存特徴不等角化フレームワーク tacit を提案する。 さらに,ロバストな特徴とロバストな特徴の分離を促すため,教師の出力を近似するために,ロバストな特徴を補完する特徴蒸留タスクを設計する。 教師モデルは、潜在的な未知のショートカットを運びやすいいくつかの簡単なサンプルで訓練される。 実験により,本フレームワークは,ソースドメインデータのみを活用しながら,最先端のベースラインに匹敵する結果が得られることを確認した。

Cross-domain text classification aims to transfer models from label-rich source domains to label-poor target domains, giving it a wide range of practical applications. Many approaches promote cross-domain generalization by capturing domain-invariant features. However, these methods rely on unlabeled samples provided by the target domains, which renders the model ineffective when the target domain is agnostic. Furthermore, the models are easily disturbed by shortcut learning in the source domain, which also hinders the improvement of domain generalization ability. To solve the aforementioned issues, this paper proposes TACIT, a target domain agnostic feature disentanglement framework which adaptively decouples robust and unrobust features by Variational Auto-Encoders. Additionally, to encourage the separation of unrobust features from robust features, we design a feature distillation task that compels unrobust features to approximate the output of the teacher. The teacher model is trained with a few easy samples that are easy to carry potential unknown shortcuts. Experimental results verify that our framework achieves comparable results to state-of-the-art baselines while utilizing only source domain data.
翻訳日:2024-01-15 12:51:04 公開日:2023-12-25
# Windowsの壊れた理論が技術的負債に対応

The Broken Windows Theory Applies to Technical Debt ( http://arxiv.org/abs/2209.01549v3 )

ライセンス: Link先を確認
William Lev\'en, Hampus Broman, Terese Besker, and Richard Torkar(参考訳) コンテキスト: 技術的負債(TD)という用語は、システムの進化とメンテナンスを妨げるのに役立つ準最適ソリューションの集合を表現します。 破れたウィンドウ理論(BWT)は犯罪学から借用された概念であり、ソフトウェア開発プロジェクトにも適用されると主張する者もいる。 この理論では、以前の犯罪(例えば壊れた窓)の存在は、さらなる犯罪行為の可能性を増加させ、tdはソフトウェアシステムの壊れた窓と見なすことができる。 目的: システムのtd密度と、そのシステムの拡張中に新しいtdを導入する開発者の傾向との因果関係を実証的に調査すること。 方法: 本研究は, 対照実験と随伴調査, フォローアップインタビューからなる混合メソドス研究戦略を用いた。 この実験では、TD密度の高い既存のシステムでシステム拡張タスクを完了した経験レベルの開発者を合計29名とした。 結果: tdレベルが再実装(再利用ではなく)する傾向,非記述変数名の選択,ソフトウェアツールであるsonarqubeによって識別された他のコードの臭いに及ぼす影響が,95%以上の信頼できる間隔で明らかにされた。 結論: 3つの重要な結果と有効な質的な結果を組み合わせることで、ソフトウェア工学の文脈におけるBWTの存在の実質的な証拠を形成します。 本研究は,既存のTDが開発中に様々なタイプの新しいTDを導入することの妥当性に大きな影響を与えることを明らかにする。

Context: The term technical debt (TD) describes the aggregation of sub-optimal solutions that serve to impede the evolution and maintenance of a system. Some claim that the broken windows theory (BWT), a concept borrowed from criminology, also applies to software development projects. The theory states that the presence of indications of previous crime (such as a broken window) will increase the likelihood of further criminal activity; TD could be considered the broken windows of software systems. Objective: To empirically investigate the causal relationship between the TD density of a system and the propensity of developers to introduce new TD during the extension of that system. Method: The study used a mixed-methods research strategy consisting of a controlled experiment with an accompanying survey and follow-up interviews. The experiment had a total of 29 developers of varying experience levels completing system extension tasks in already existing systems with high or low TD density. Results: The analysis revealed significant effects of TD level on the subjects' tendency to re-implement (rather than reuse) functionality, choose non-descriptive variable names, and introduce other code smells identified by the software tool SonarQube, all with at least 95% credible intervals. Conclusions: Three separate significant results along with a validating qualitative result combine to form substantial evidence of the BWT's existence in software engineering contexts. This study finds that existing TD can have a major impact on developers propensity to introduce new TD of various types during development.
翻訳日:2023-12-29 23:39:36 公開日:2023-12-25
# コードレビューにおけるコードスニペットの最小化 - OpenStackコミュニティとQtコミュニティの検討と実践者調査

Demystifying Code Snippets in Code Reviews: A Study of the OpenStack and Qt Communities and A Practitioner Survey ( http://arxiv.org/abs/2307.14406v2 )

ライセンス: Link先を確認
Beiqi Zhang, Liming Fu, Peng Liang, Jiaxin Yu, Chong Wang(参考訳) コードレビューはソフトウェア開発におけるソフトウェア品質保証のベストプラクティスの1つとして広く知られている。 典型的なコードレビュープロセスでは、レビュー担当者が開発者がコミットしたコードをチェックして、コードの品質を保証する。 結果として、レビューコメントの情報を理解することは、レビュアーや開発者が効果的なコードレビューを行うための前提条件となる。 コードスニペットは、特別なコード形式として、コードレビューに必要な情報を伝えるために使用できる。 例えば、レビュアはコードスニペットを使って提案したり、アイデアを精巧にすることで、コードレビューで開発者に必要な情報を満たすことができる。 しかし、コードレビューにコードスニペットを提供するプラクティスに注目した研究はほとんどない。 このギャップを埋めるために、コードレビューのコードスニペットに関する情報と知識をマイニングする混合手法の研究を行い、実践者や研究者がコードレビューでコードスニペットを使用することについて理解を深めるのに役立つ。 具体的には,コードレビューデータのマイニングと実践者の調査の2段階を含む。 調査の結果は、レビュー担当者がコードレビューで開発者が必要とする特定の情報を満たすために、適切なシナリオでコードスニペットを提供することができる点を強調している。

Code review is widely known as one of the best practices for software quality assurance in software development. In a typical code review process, reviewers check the code committed by developers to ensure the quality of the code, during which reviewers and developers would communicate with each other in review comments to exchange necessary information. As a result, understanding the information in review comments is a prerequisite for reviewers and developers to conduct an effective code review. Code snippet, as a special form of code, can be used to convey necessary information in code reviews. For example, reviewers can use code snippets to make suggestions or elaborate their ideas to meet developers' information needs in code reviews. However, little research has focused on the practices of providing code snippets in code reviews. To bridge this gap, we conduct a mixed-methods study to mine information and knowledge related to code snippets in code reviews, which can help practitioners and researchers get a better understanding about using code snippets in code review. Specifically, our study includes two phases: mining code review data and conducting practitioners' survey. The study results highlight that reviewers can provide code snippets in appropriate scenarios to meet developers' specific information needs in code reviews, which will facilitate and accelerate the code review process.
翻訳日:2023-12-29 22:37:20 公開日:2023-12-25
# 注意命令が下される! 協調的対向パッチによる変形型視覚トランスフォーマーの騙し

Attention Deficit is Ordered! Fooling Deformable Vision Transformers with Collaborative Adversarial Patches ( http://arxiv.org/abs/2311.12914v2 )

ライセンス: Link先を確認
Quazi Mishkatul Alam, Bilel Tarchoun, Ihsen Alouani, Nael Abu-Ghazaleh(参考訳) 最新のトランスフォーマーベースのビジョンモデルは、いくつかのビジョンタスクにわたる畳み込みニューラルネットワーク(cnn)ベースのモデルよりも優れていることが証明されている。 変形可能な視覚変換器は、スパースアテンション構造を用いることで、アテンションモデリングの二次的な複雑さを著しく低減し、様々なスケールの機能を組み込んで、マルチビュー視覚システムのような大規模アプリケーションで使用することができる。 近年の研究では、従来の視覚変換器に対する対向攻撃が示されており、これらの攻撃は、そのわずかな注意構造のために変形可能な変換器に転送されないことが示されている。 特に、変形可能な変換器の注意は、最も関連性の高い他のトークンへのポインタを用いてモデル化される。 本研究では,変形可能なトランスフォーマーの注意を操る対向攻撃に初めて貢献し,画像の無関係な部分に焦点を当てるようにリダイレクトする。 また,ターゲットパッチに対する注意を操作し,モデルを騙すための敵のノイズを含む新たな協調攻撃を開発した。 実験では,入力フィールドにおけるパッチ領域の1%未満の変更は,MS COCOを用いた単視点オブジェクト検出では0% AP,Wildtrackを用いた多視点オブジェクト検出では0% MODAに完全に低下することがわかった。

The latest generation of transformer-based vision models has proven to be superior to Convolutional Neural Network (CNN)-based models across several vision tasks, largely attributed to their remarkable prowess in relation modeling. Deformable vision transformers significantly reduce the quadratic complexity of attention modeling by using sparse attention structures, enabling them to incorporate features across different scales and be used in large-scale applications, such as multi-view vision systems. Recent work has demonstrated adversarial attacks against conventional vision transformers; we show that these attacks do not transfer to deformable transformers due to their sparse attention structure. Specifically, attention in deformable transformers is modeled using pointers to the most relevant other tokens. In this work, we contribute for the first time adversarial attacks that manipulate the attention of deformable transformers, redirecting it to focus on irrelevant parts of the image. We also develop new collaborative attacks where a source patch manipulates attention to point to a target patch, which contains the adversarial noise to fool the model. In our experiments, we observe that altering less than 1% of the patched area in the input field results in a complete drop to 0% AP in single-view object detection using MS COCO and a 0% MODA in multi-view object detection using Wildtrack.
翻訳日:2023-12-29 21:46:18 公開日:2023-12-25
# オールインワン画像復元のための拡散前処理

Exploiting Diffusion Priors for All-in-One Image Restoration ( http://arxiv.org/abs/2312.02197v2 )

ライセンス: Link先を確認
Yuanbiao Gou and Haiyu Zhao and Boyun Li and Xinyan Xiao and Xi Peng(参考訳) All-in-oneは、画像復元の様々な課題を単一のモデルで解決することを目的としている。 そこで本研究では,事前訓練した拡散モデルにより得られた画像の先行画像を利用して,劣化モデリングと拡散誘導という2つの課題に対処する方法を提案する。 前者は未知の劣化によって生じるクリーン画像の過程をシミュレートすることを目的としており、後者は拡散モデルを導いて所望のクリーン画像を生成することを目的としている。 そこで本研究では,ゼロエアと呼ばれるオールインワン画像復元のためのゼロショットフレームワークを提案し,逆サンプリングの各時間ステップでテスト時間分解モデル (tdm) と3段階拡散誘導 (tdg) を交互に実行する。 具体的には、TDMは、所定の劣化画像から劣化モデルを学ぶために拡散前処理を利用し、TDGは、様々な拡散前処理を最大限に活用するために、時間ステップを3つのステージに分割する。 劣化に依存しない性質により、オールインワンの復元はゼロショットで達成できる。 広範な実験を通して、ZeroAIRはタスク固有のメソッドよりもパフォーマンスが優れていることを示す。 コードはgithubで入手できる。

All-in-one aims to solve various tasks of image restoration in a single model. To this end, we present a feasible way of exploiting the image priors captured by the pretrained diffusion model, through addressing the two challenges, i.e., degradation modeling and diffusion guidance. The former aims to simulate the process of the clean image degenerated by the unknown degradations, and the latter aims at guiding the diffusion model to generate the desired clean image. With the motivations, we propose a zero-shot framework for all-in-one image restoration, termed ZeroAIR, which alternatively performs the test-time degradation modeling (TDM) and the three-stage diffusion guidance (TDG) at each timestep of the reverse sampling. To be specific, TDM exploits the diffusion priors to learn a degradation model from a given degraded image, and TDG divides the timesteps into three stages for taking full advantages of the varying diffusion priors. Thanks to their degradation-agnostic property, all-in-one restoration could be achieved in a zero-shot way. Through extensive experiments, we show that our ZeroAIR achieves comparable even better performance than those task-specific methods. The code will be available on Github.
翻訳日:2023-12-29 21:35:35 公開日:2023-12-25
# X-Dreamer:テキスト対2Dとテキスト対3Dの領域ギャップを埋めて高品質な3Dコンテンツを作成する

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation ( http://arxiv.org/abs/2312.00085v2 )

ライセンス: Link先を確認
Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji(参考訳) 近年,事前学習された2次元拡散モデルの開発により,テキストから3次元コンテンツの自動生成が大きな進歩を遂げている。 既存のテキスト・トゥ・3D法は、事前訓練された2D拡散モデルにより評価されるように、3D表現を最適化し、レンダリングされた画像が与えられたテキストと適切に一致することを保証する。 それでも、2D画像と3Dアセットの間にはかなりの領域ギャップがあり、主にカメラ関連属性のバリエーションと前景オブジェクトの排他的存在に起因する。 したがって、3次元表現を最適化するために直接2次元拡散モデルを用いることは、最適以下の結果をもたらす可能性がある。 本稿では,テキストから3dへの合成とテキストから3dへの合成のギャップを効果的に橋渡しする,高品質なテキストから3dへのコンテンツ作成のための新しいアプローチであるx-dreamerを提案する。 X-Dreamerの主なコンポーネントは、カメラ誘導低ランク適応(CG-LoRA)とアテンションマスクアライメント(AMA)ロスの2つの革新的な設計である。 CG-LoRAは、トレーニング可能なパラメータにカメラ依存生成を用いることで、事前訓練された拡散モデルにカメラ情報を動的に組み込む。 この統合により、生成された3Dアセットとカメラの視点とのアライメントが強化される。 ama損失は、3dオブジェクトのバイナリマスクを使用して事前訓練された拡散モデルの注意マップを誘導し、前景オブジェクトの作成を優先する。 このモジュールは、モデルが正確で詳細な前景オブジェクトの生成に集中することを保証する。 提案手法の有効性を,既存のテキスト・ツー・3D手法と比較して評価した。 プロジェクトWebページ: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/。

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ .
翻訳日:2023-12-29 21:33:24 公開日:2023-12-25
# AM-RADIO: 集約モデル - すべてのドメインをひとつに

AM-RADIO: Agglomerative Model -- Reduce All Domains Into One ( http://arxiv.org/abs/2312.06709v3 )

ライセンス: Link先を確認
Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov(参考訳) いくつかのビジュアルファンデーションモデル(VFM)が最近、下流タスクのバックボーンとして登場した。 CLIP、DINOv2、SAMなどのVFMは、異なる目的でトレーニングされており、さまざまな下流タスクに固有の特性を示している。 概念的相違にもかかわらず、これらのモデルはマルチティーチンガー蒸留により効果的に統一モデルにマージ可能である。 このアプローチをAM-RADIO(Agglomerative Model -- Reduce All Domains Into One)と呼ぶ。 この統合的アプローチは、個々の教師モデルのパフォーマンスを超えるだけでなく、ゼロショット視覚言語理解、詳細なピクセルレベルの理解、オープンボキャブラリセグメンテーション機能などの特徴を融合させる。 最もハードウェア効率のよいバックボーンを追求するため、同じトレーニングレシピを用いてマルチティーチンガー蒸留パイプラインの多数のアーキテクチャを評価した。 これは、前任者の性能を超え、教師モデルよりも少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)の開発につながった。 包括的なベンチマークプロセスは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーする。 コード: https://github.com/nvlabs/radio

A handful of visual foundation models (VFMs) have recently emerged as the backbones for numerous downstream tasks. VFMs like CLIP, DINOv2, SAM are trained with distinct objectives, exhibiting unique characteristics for various downstream tasks. We find that despite their conceptual differences, these models can be effectively merged into a unified model through multi-teacher distillation. We name this approach AM-RADIO (Agglomerative Model -- Reduce All Domains Into One). This integrative approach not only surpasses the performance of individual teacher models but also amalgamates their distinctive features, such as zero-shot vision-language comprehension, detailed pixel-level understanding, and open vocabulary segmentation capabilities. In pursuit of the most hardware-efficient backbone, we evaluated numerous architectures in our multi-teacher distillation pipeline using the same training recipe. This led to the development of a novel architecture (E-RADIO) that exceeds the performance of its predecessors and is at least 7x faster than the teacher models. Our comprehensive benchmarking process covers downstream tasks including ImageNet classification, ADE20k semantic segmentation, COCO object detection and LLaVa-1.5 framework. Code: https://github.com/NVlabs/RADIO
翻訳日:2023-12-29 21:21:08 公開日:2023-12-25
# マルチドメイン学習を用いた協調強化ネットワークによる夜間人物再同定

Nighttime Person Re-Identification via Collaborative Enhancement Network with Multi-domain Learning ( http://arxiv.org/abs/2312.16246v1 )

ライセンス: Link先を確認
Andong Lu, Tianrui Zha, Chenglong Li, Jin Tang, Xiaofeng Wang, Bin Luo(参考訳) 典型的な夜間ReID法は、リライトネットワークとReIDネットワークを逐次的に組み合わせて、リライト画像の品質によってReID性能を制限するだけでなく、画像リライトと人物ReIDタスク間の効果的な協調モデリングを無視する。 これらの問題に対処するため、夜間のReIDのための並列フレームワークでマルチレベル機能インタラクションを行うCENetと呼ばれる新しい協調型拡張ネットワークを提案する。 特にCENetは並列トランスフォーマーネットワークであり、設計された並列構造は、ライティング画像の品質がReID性能に与える影響を避けることができる。 画像リライトと人物ReIDタスクの効果的な協調モデリングを実現するため,CENetに多層特徴相互作用を統合する。 具体的には、低レベルの特徴相互作用を構築するためにトランスコーダを共有し、その特徴蒸留を行い、高レベルの特徴を画像のリライトからreidに転送する。 さらに、実世界の夜間人物ReIDデータセットのサイズは小さく、大規模な合成データセットは、実世界のデータとかなりのドメインギャップを示す。 実世界と大規模総合訓練データの両方を活用するために,両種類のデータを交互に活用し,cenetの訓練におけるドメイン間差を低減するマルチドメイン学習アルゴリズムを開発した。 CENetの有効性を検証するために,2つの実夜間データセット, \textit{Night600} と \textit{RGBNT201$_{rgb}$} と合成夜間ReIDデータセットの大規模な実験を行った。 コードと合成データセットをリリースします。

Prevalent nighttime ReID methods typically combine relighting networks and ReID networks in a sequential manner, which not only restricts the ReID performance by the quality of relighting images, but also neglects the effective collaborative modeling between image relighting and person ReID tasks. To handle these problems, we propose a novel Collaborative Enhancement Network called CENet, which performs the multilevel feature interactions in a parallel framework, for nighttime person ReID. In particular, CENet is a parallel Transformer network, in which the designed parallel structure can avoid the impact of the quality of relighting images on ReID performance. To perform effective collaborative modeling between image relighting and person ReID tasks, we integrate the multilevel feature interactions in CENet. Specifically, we share the Transformer encoder to build the low-level feature interaction, and then perform the feature distillation to transfer the high-level features from image relighting to ReID. In addition, the sizes of existing real-world nighttime person ReID datasets are small, and large-scale synthetic ones exhibit substantial domain gaps with real-world data. To leverage both small-scale real-world and large-scale synthetic training data, we develop a multi-domain learning algorithm, which alternately utilizes both kinds of data to reduce the inter-domain difference in the training of CENet. Extensive experiments on two real nighttime datasets, \textit{Night600} and \textit{RGBNT201$_{rgb}$}, and a synthetic nighttime ReID dataset are conducted to validate the effectiveness of CENet. We will release the code and synthetic dataset.
翻訳日:2023-12-29 20:33:33 公開日:2023-12-25
# iKUN:リトレーニングなしでトラッカーに話しかける

iKUN: Speak to Trackers without Retraining ( http://arxiv.org/abs/2312.16245v1 )

ライセンス: Link先を確認
Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su(参考訳) マルチオブジェクト追跡(RMOT)は、入力されたテキスト記述に基づいて複数のオブジェクトを追跡することを目的としている。 以前の作業では、余分なテキストモジュールをマルチオブジェクトトラッカに統合するだけでこれを実現する。 しかし、通常はフレームワーク全体を再トレーニングし、最適化に支障をきたす必要がある。 そこで本研究では,市販トラッカーとの通信をプラグイン・アンド・プレイ方式で行えるように,挿入可能な知識統一ネットワーク「ikun」を提案する。 具体的には、知識統一モジュール(KUM)は、テキストガイダンスに基づいて視覚的特徴を適応的に抽出するように設計されている。 一方、局所化精度を向上させるために、現在の動作状況に基づいてプロセスノイズと観測ノイズを動的に調整するKalman filter(NKF)のニューラルバージョンを提案する。 さらに,テキスト記述の長区間分布の開放化の問題に対処するため,疑似周波数で信頼度を向上するテスト時間類似度校正法を提案する。 refer-kittiデータセットに関する広範な実験は、このフレームワークの有効性を検証する。 最後に、RMOTの開発をスピードアップするために、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceも提供します。 コードとデータセットはhttps://github.com/dyhBUPT/iKUNでリリースされる。

Referring multi-object tracking (RMOT) aims to track multiple objects based on input textual descriptions. Previous works realize it by simply integrating an extra textual module into the multi-object tracker. However, they typically need to retrain the entire framework and have difficulties in optimization. In this work, we propose an insertable Knowledge Unification Network, termed iKUN, to enable communication with off-the-shelf trackers in a plug-and-play manner. Concretely, a knowledge unification module (KUM) is designed to adaptively extract visual features based on textual guidance. Meanwhile, to improve the localization accuracy, we present a neural version of Kalman filter (NKF) to dynamically adjust process noise and observation noise based on the current motion status. Moreover, to address the problem of open-set long-tail distribution of textual descriptions, a test-time similarity calibration method is proposed to refine the confidence score with pseudo frequency. Extensive experiments on Refer-KITTI dataset verify the effectiveness of our framework. Finally, to speed up the development of RMOT, we also contribute a more challenging dataset, Refer-Dance, by extending public DanceTrack dataset with motion and dressing descriptions. The code and dataset will be released in https://github.com/dyhBUPT/iKUN.
翻訳日:2023-12-29 20:32:18 公開日:2023-12-25
# 可逆的プロンプト学習によるモード欠落RGBT追跡と高品質データシミュレーション手法

Modality-missing RGBT Tracking via Invertible Prompt Learning and A High-quality Data Simulation Method ( http://arxiv.org/abs/2312.16244v1 )

ライセンス: Link先を確認
Andong Lu, jiacong Zhao, Chenglong Li, Jin Tang, Bin Luo(参考訳) 現在のRGBT追跡研究は主に、現実世界のシーンにおけるモダリティを欠く課題を見越して、モダリティ完備シナリオに焦点を当てている。 本研究では,RGBT追跡におけるモダリティ欠落問題の影響を包括的に調査し,コンテンツ保存プロンプトをよく訓練されたトラッキングモデルに統合し,様々なモダリティ欠落シナリオに適応する,新しい非可逆的プロンプト学習手法を提案する。 特に, 1つのモダリティを欠いたシナリオを考慮し, RGBT追跡モデルに適応するためのモダリティの欠如を発生させるためのモダリティの利用を提案する。 しかしながら、利用可能なモダリティと欠落したモダリティの間の相互モダリティギャップは、通常、即時生成において意味的歪みと情報損失を引き起こす。 この問題に対処するために,インパルス生成モデルから入力可能なモダリティの完全な再構築を取り入れた非可逆的なプロンプト学習方式を提案する。 モダリティ許容rgbt追跡データセットの欠如と多くのモダリティ許容シナリオのキャプチャが困難であることを考慮して,階層的組合せスキームに基づく高品質データシミュレーション手法を設計し,実世界のモダリティ許容データを生成する。 3つのモダリティを許容するデータセットに関する広範囲な実験により、本手法は最先端手法に比べて大幅に性能が向上することを示した。 コードとシミュレーションのデータセットをリリースします。

Current RGBT tracking researches mainly focus on the modality-complete scenarios, overlooking the modality-missing challenge in real-world scenes. In this work, we comprehensively investigate the impact of modality-missing challenge in RGBT tracking and propose a novel invertible prompt learning approach, which integrates the content-preserving prompts into a well-trained tracking model to adapt to various modality-missing scenarios, for modality-missing RGBT tracking. In particular, given one modality-missing scenario, we propose to utilize the available modality to generate the prompt of the missing modality to adapt to RGBT tracking model. However, the cross-modality gap between available and missing modalities usually causes semantic distortion and information loss in prompt generation. To handle this issue, we propose the invertible prompt learning scheme by incorporating the full reconstruction of the input available modality from the prompt in prompt generation model. Considering that there lacks a modality-missing RGBT tracking dataset and many modality-missing scenarios are difficult to capture, we design a high-quality data simulation method based on hierarchical combination schemes to generate real-world modality-missing data. Extensive experiments on three modality-missing datasets show that our method achieves significant performance improvements compared with state-of-the-art methods. We will release the code and simulation dataset.
翻訳日:2023-12-29 20:31:38 公開日:2023-12-25
# すべて、未公開のデータか?

Are All Unseen Data Out-of-Distribution? ( http://arxiv.org/abs/2312.16243v1 )

ライセンス: Link先を確認
Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Weikai Li, Bo Han, Jinyan Li(参考訳) unseenデータの分布は、すべてout-of-distribution(ood)として扱われ、一般化が大きな課題となっている。 多くの証拠は、トレーニングデータのサイズが増加すると、テストデータの一般化エラーが単調に減少することを示唆している。 しかし、これは他の観測や分析では当てはまらない。 特に、トレーニングデータが複数のソースドメインを持ち、テストデータが分散ドリフトを含む場合、テストデータの一般化エラーがトレーニングデータの増大とともに単調に減少するわけではない。 このような非減少現象は、様々な視覚的ベンチマークにまたがる経験的検証を伴う線形条件下で公式に研究される。 これらの結果により、OODデータをトレーニング領域の凸殻外のデータとして再定義し、この新しい定義に基づいて新たな一般化を証明した。 これは、訓練領域の凸内にある見えないデータに対して、十分に訓練されたモデルの有効性が保証されることを意味する。 しかし、凸船体以外のデータについては、非減少エラー傾向が発生する可能性がある。 そこで本研究では,データ強化や事前学習といった一般的な戦略の有効性について検討する。 さらに,ベースライン手法よりも優れた性能を実現するため,ソース領域における新たな強化学習選択アルゴリズムを提案する。

Distributions of unseen data have been all treated as out-of-distribution (OOD), making their generalization a significant challenge. Much evidence suggests that the size increase of training data can monotonically decrease generalization errors in test data. However, this is not true from other observations and analysis. In particular, when the training data have multiple source domains and the test data contain distribution drifts, then not all generalization errors on the test data decrease monotonically with the increasing size of training data. Such a non-decreasing phenomenon is formally investigated under a linear setting with empirical verification across varying visual benchmarks. Motivated by these results, we redefine the OOD data as a type of data outside the convex hull of the training domains and prove a new generalization bound based on this new definition. It implies that the effectiveness of a well-trained model can be guaranteed for the unseen data that is within the convex hull of the training domains. But, for some data beyond the convex hull, a non-decreasing error trend can happen. Therefore, we investigate the performance of popular strategies such as data augmentation and pre-training to overcome this issue. Moreover, we propose a novel reinforcement learning selection algorithm in the source domains only that can deliver superior performance over the baseline methods.
翻訳日:2023-12-29 20:31:08 公開日:2023-12-25
# 流通シフト下における知識蒸留の再検討

Revisiting Knowledge Distillation under Distribution Shift ( http://arxiv.org/abs/2312.16242v1 )

ライセンス: Link先を確認
Songming Zhang and Ziyu Lyu and Xiaofeng Chen(参考訳) 知識蒸留は、大きなモデルから小さなモデルに知識を移し、最近目覚ましい成果を上げている。 しかし,分布変化に対する知識蒸留のメカニズムに関する研究は少ない。 分散シフトとは、トレーニングとテストフェーズの間のデータ分散のドリフトを指す。 本稿では, 移動状況における目的関数を再構成し, 知識蒸留のパラダイムを再考する。 実シナリオでは,多様性と相関シフトを含む2つの一般的な分布シフトに対して,知識蒸留をベンチマークするための統一的かつ体系的な枠組みを提案する。 評価ベンチマークは、アルゴリズム、データ駆動、および5つのベンチマークデータセットの最適化パースペクティブから30以上のメソッドをカバーする。 全体としては,学生モデルについて広範な実験を行う。 特に,複雑なアルゴリズムやデータ拡張は,多くの場合において限られた利益しか得られない。

Knowledge distillation transfers knowledge from large models into small models, and has recently made remarkable achievements. However, few studies has investigated the mechanism of knowledge distillation against distribution shift. Distribution shift refers to the data distribution drifts between training and testing phases. In this paper, we reconsider the paradigm of knowledge distillation by reformulating the objective function in shift situations. Under the real scenarios, we propose a unified and systematic framework to benchmark knowledge distillation against two general distributional shifts including diversity and correlation shift. The evaluation benchmark covers more than 30 methods from algorithmic, data-driven, and optimization perspectives for five benchmark datasets. Overall, we conduct extensive experiments on the student model. We reveal intriguing observations of poor teaching performance under distribution shifts; in particular, complex algorithms and data augmentation offer limited gains in many cases.
翻訳日:2023-12-29 20:30:50 公開日:2023-12-25
# タスクとドメインの異なる視覚変換器のマージ

Merging Vision Transformers from Different Tasks and Domains ( http://arxiv.org/abs/2312.16240v1 )

ライセンス: Link先を確認
Peng Ye, Chenyu Huang, Mingzhu Shen, Tao Chen, Yongqi Huang, Yuning Zhang, Wanli Ouyang(参考訳) この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)で訓練された様々なビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としており、各タスクやドメインでまだ良いパフォーマンスが得られる。 これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。 このギャップを埋めるため、我々はまず、既存のモデルマージメソッドがvitモデル全体のマージをうまく処理できないこと、そしてまだ改善の余地があることを発見します。 ViT全体のマージを可能にするために,すべてのレイヤ(例えば,埋め込み,ノーム,アテンション,MDP)をマージして,適切な分類器を選択する,単純だが効果的なゲーティングネットワークを提案する。 具体的には、ゲーティングネットワークは、すべてのタスク(ドメイン)からラベルのないデータセットによってトレーニングされ、推論中にモデルを統合するために入力がどのタスク(ドメイン)に属するかを予測する。 統合モデルの性能をさらに向上させるため、特に統合タスクの難易度が増加すると、モデルウェイト類似性の新たな指標を設計し、制御可能および複合重み付けを実現する。 新しく確立されたベンチマークの総合的な実験は、異なるタスクやドメインに対して提案されたViTマージフレームワークの優位性を検証する。 また,異なる視覚タスクから10個のViTモデルにマージすることで,各タスクの性能への影響を無視できる。

This work targets to merge various Vision Transformers (ViTs) trained on different tasks (i.e., datasets with different object categories) or domains (i.e., datasets with the same categories but different environments) into one unified model, yielding still good performance on each task or domain. Previous model merging works focus on either CNNs or NLP models, leaving the ViTs merging research untouched. To fill this gap, we first explore and find that existing model merging methods cannot well handle the merging of the whole ViT models and still have improvement space. To enable the merging of the whole ViT, we propose a simple-but-effective gating network that can both merge all kinds of layers (e.g., Embedding, Norm, Attention, and MLP) and select the suitable classifier. Specifically, the gating network is trained by unlabeled datasets from all the tasks (domains), and predicts the probability of which task (domain) the input belongs to for merging the models during inference. To further boost the performance of the merged model, especially when the difficulty of merging tasks increases, we design a novel metric of model weight similarity, and utilize it to realize controllable and combined weight merging. Comprehensive experiments on kinds of newly established benchmarks, validate the superiority of the proposed ViT merging framework for different tasks and domains. Our method can even merge beyond 10 ViT models from different vision tasks with a negligible effect on the performance of each task.
翻訳日:2023-12-29 20:30:40 公開日:2023-12-25
# Chatbotは必要以上のもの:よりリアルな反応のための情報豊富なプロンプト

Chatbot is Not All You Need: Information-rich Prompting for More Realistic Responses ( http://arxiv.org/abs/2312.16233v1 )

ライセンス: Link先を確認
Seokhoon Jeong, Assentay Makhmud(参考訳) 近年のLarge Language Models (LLM) は、架空の人物や実際の人間を会話で模倣する際、顕著な能力を示している。 しかし、これらの応答のリアリズムと一貫性は、模倣されるエージェントのより豊かな情報を提供することによってさらに強化することができる。 本稿では,5つの感覚,属性,感情状態,対話者との関係,記憶を活用し,llmからよりリアルで一貫した応答を生成する新しい手法を提案する。 これらの要素を取り入れることで,会話交換における自然な,現実的な反応を生成するLLMの能力を高めることを目指している。 本研究を通じて,架空のキャラクターを模倣する能力の向上を示すllmの開発に寄与することを期待する。 私たちは新しいベンチマークデータセットとすべてのコード、プロンプト、サンプル結果をgithubでリリースしています。

Recent Large Language Models (LLMs) have shown remarkable capabilities in mimicking fictional characters or real humans in conversational settings. However, the realism and consistency of these responses can be further enhanced by providing richer information of the agent being mimicked. In this paper, we propose a novel approach to generate more realistic and consistent responses from LLMs, leveraging five senses, attributes, emotional states, relationship with the interlocutor, and memories. By incorporating these factors, we aim to increase the LLM's capacity for generating natural and realistic reactions in conversational exchanges. Through our research, we expect to contribute to the development of LLMs that demonstrate improved capabilities in mimicking fictional characters. We release a new benchmark dataset and all our codes, prompts, and sample results on our Github: https://github.com/srafsasm/InfoRichBot
翻訳日:2023-12-29 20:30:12 公開日:2023-12-25
# 量子スピンダイナミクスの数値計算法

Numerical Methods for Quantum Spin Dynamics ( http://arxiv.org/abs/2312.16232v1 )

ライセンス: Link先を確認
Danny Goodacre(参考訳) 本報告は、チャープパルスを高周波で表示する時間依存ハミルトニアンをシミュレーションするための改良手法の実装を目的として、量子スピン系をシミュレーションするための数値的手法の効率に関するものである。 量子系の密度行列定式化に取り組んでおり、Louville-von Neumann方程式の下で進化を研究し、現在の数値法の解析とベンチマークを行う。 既存の手法の精度はチャープパルスの存在下で評価される。 また、Magnus拡大についても論じ、微分方程式の解法をいかに切り離すのかを詳述する。 この成果はpythonパッケージのmagpyに実装され、時間に依存したハミルトニアンの現在のアプローチよりも優れたエラー対コスト比を提供する。

This report is concerned with the efficiency of numerical methods for simulating quantum spin systems, with the aim to implement an improved method for simulation of a time-dependent Hamiltonian that displays chirped pulses at a high frequency. Working in the density matrix formulation of quantum systems, we study evolution under the Liouville-von Neumann equation, presenting analysis of and benchmarking current numerical methods. The accuracy of existing techniques is assessed in the presence of chirped pulses. We also discuss the Magnus expansion and detail how a truncation of it is used to solve differential equations. The results of this work are implemented in the Python package MagPy to provide a better error-to-cost ratio than current approaches allow for time-dependent Hamiltonians.
翻訳日:2023-12-29 20:29:58 公開日:2023-12-25
# 意思決定景観のナビゲーション : 意思決定のダイナミクスに及ぼす主要要因の影響

Navigating Decision Landscapes: The Impact of Principals on Decision-Making Dynamics ( http://arxiv.org/abs/2312.16230v1 )

ライセンス: Link先を確認
Lu Li and Huangxing Li(参考訳) 社会システムにおける意思決定のダイナミクスを考察し,先行する選択を個人が理解せずに追従する先行研究から,「主観的行動」を参照した。 従来の研究は,外部の影響を伴わない最適選択の選好を強調していたが,本研究では原則や外部ガイドを導入し,意思決定プロセスに複雑さを加えた。 これらの原則の信頼性は決定に大きく影響した。 特に、信頼できないプリンシパルに対する時々の信頼でさえ、決定結果を変える可能性がある。 さらに、プリンシパルのアドバイスが純粋にランダムであった場合、信頼が高まり、意思決定の誤りが増えた。 本研究は意思決定の文脈に信頼を置く際に注意が必要であることを強調する。

We explored decision-making dynamics in social systems, referencing the 'herd behavior' from prior studies where individuals follow preceding choices without understanding the underlying reasons. While previous research highlighted a preference for the optimal choice without external influences, our study introduced principals or external guides, adding complexity to the decision-making process. The reliability of these principals significantly influenced decisions. Notably, even occasional trust in an unreliable principal could alter decision outcomes. Furthermore, when a principal's advice was purely random, heightened trust led to more decision errors. Our findings emphasize the need for caution when placing trust in decision-making contexts.
翻訳日:2023-12-29 20:29:45 公開日:2023-12-25
# MetaScript: 生成的敵ネットワークによる手書き中国語コンテンツ生成

MetaScript: Few-Shot Handwritten Chinese Content Generation via Generative Adversarial Networks ( http://arxiv.org/abs/2312.16251v1 )

ライセンス: Link先を確認
Xiangyuan Xue, Kailing Wang, Jiazi Bu, Qirui Li, Zhiyuan Zhang(参考訳) 本研究では,漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する,新しい中国語コンテンツ生成システムであるMetaScriptを提案する。 本手法は,個人独自の手書きスタイルを保ちながら,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。 手書きスタイルの多様なデータセットに基づいて訓練されたMetaScriptは、最小限のスタイル参照と標準フォントから高品質なスタイルの模倣を生成するのに長けている。 本研究は,特に中国語文字の文脈において,筆記コミュニケーションにおける個人的触感を保ちながら,デジタルタイポグラフィの課題に対する実用的な解決法を示す。 特に,認識精度,開始スコア,Frechet開始距離など,様々な評価において優れた性能を示した。 同時に、我々のモデルのトレーニング条件は満足しやすく、実際のアプリケーションへの一般化を容易にする。

In this work, we propose MetaScript, a novel Chinese content generation system designed to address the diminishing presence of personal handwriting styles in the digital representation of Chinese characters. Our approach harnesses the power of few-shot learning to generate Chinese characters that not only retain the individual's unique handwriting style but also maintain the efficiency of digital typing. Trained on a diverse dataset of handwritten styles, MetaScript is adept at producing high-quality stylistic imitations from minimal style references and standard fonts. Our work demonstrates a practical solution to the challenges of digital typography in preserving the personal touch in written communication, particularly in the context of Chinese script. Notably, our system has demonstrated superior performance in various evaluations, including recognition accuracy, inception score, and Frechet inception distance. At the same time, the training conditions of our model are easy to meet and facilitate generalization to real applications.
翻訳日:2023-12-29 20:16:20 公開日:2023-12-25
# 低光環境における物体追跡の包括的研究

A Comprehensive Study of Object Tracking in Low-Light Environments ( http://arxiv.org/abs/2312.16250v1 )

ライセンス: Link先を確認
Anqi Yi and Nantheera Anantrasirichai(参考訳) 低照度環境での正確な物体追跡は、特に監視や倫理学の応用において重要である。 しかし、キャプチャーシーケンスの質が悪いため、これを実現することは極めて難しい。 ノイズ、色の不均衡、低コントラストなどの要因がこれらの課題に寄与する。 本稿では,これらの歪みが自動物体追跡装置に与える影響を包括的に検討する。 さらに,変圧器を用いた物体追跡システムに低照度・低照度化手法を統合することにより,トラッキング性能を向上させる手法を提案する。 実験結果から,低照度合成データセットを用いてトレーニングしたトラッカーは,バニラMixFormerとSiam R-CNNより優れていた。

Accurate object tracking in low-light environments is crucial, particularly in surveillance and ethology applications. However, achieving this is significantly challenging due to the poor quality of captured sequences. Factors such as noise, color imbalance, and low contrast contribute to these challenges. This paper presents a comprehensive study examining the impact of these distortions on automatic object trackers. Additionally, we propose a solution to enhance tracking performance by integrating denoising and low-light enhancement methods into the transformer-based object tracking system. Experimental results show that the proposed tracker, trained with low-light synthetic datasets, outperforms both the vanilla MixFormer and Siam R-CNN.
翻訳日:2023-12-29 20:16:04 公開日:2023-12-25
# XuanCe: 総合的で統一された深層強化学習ライブラリ

XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library ( http://arxiv.org/abs/2312.16248v1 )

ライセンス: Link先を確認
Wenzhang Liu, Wenzhe Cai, Kun Jiang, Guangran Cheng, Yuanda Wang, Jiawei Wang, Jingyu Cao, Lele Xu, Chaoxu Mu, and Changyin Sun(参考訳) 本稿では、PyTorch、TensorFlow、MindSporeと互換性のある、総合的で統一された深層強化学習(DRL)ライブラリであるXuanCeを紹介する。 XuanCeは40以上の古典的DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供し、新しいアルゴリズムと環境を簡単に組み込む柔軟性がある。 CPU、GPU、Ascendをサポートする汎用DRLライブラリで、Ubuntu、Windows、MacOS、EulerOSなどのさまざまなオペレーティングシステムで実行できる。 MuJoCo、Atari、StarCraftIIのマルチエージェントチャレンジなど、人気のある環境で実施された大規模なベンチマークは、ライブラリの素晴らしいパフォーマンスを示している。 XuanCeはオープンソースで、https://github.com/agi-brain/xuance.gitでアクセスできる。

In this paper, we present XuanCe, a comprehensive and unified deep reinforcement learning (DRL) library designed to be compatible with PyTorch, TensorFlow, and MindSpore. XuanCe offers a wide range of functionalities, including over 40 classical DRL and multi-agent DRL algorithms, with the flexibility to easily incorporate new algorithms and environments. It is a versatile DRL library that supports CPU, GPU, and Ascend, and can be executed on various operating systems such as Ubuntu, Windows, MacOS, and EulerOS. Extensive benchmarks conducted on popular environments including MuJoCo, Atari, and StarCraftII multi-agent challenge demonstrate the library's impressive performance. XuanCe is open-source and can be accessed at https://github.com/agi-brain/xuance.git.
翻訳日:2023-12-29 20:15:54 公開日:2023-12-25
# 生データからの映像復元の精度と時間的整合性

Toward Accurate and Temporally Consistent Video Restoration from Raw Data ( http://arxiv.org/abs/2312.16247v1 )

ライセンス: Link先を確認
Shi Guo, Jianqi Ma, Xi Yang, Zhengqiang Zhang, Lei Zhang(参考訳) 復調と復調は、生データからクリーンなフルカラー映像を再構成する2つの基本的なステップであり、ビデオ復調と復調を共同で行う場合、VJDDは別々に行うよりもビデオ復元性能が向上する可能性がある。 復元精度に加えて、VJDDのもう一つの重要な課題は連続フレームの時間的一貫性にある。 この問題は、映像の知覚品質を高めるために知覚正規化用語が導入されると悪化する。 これらの課題に対処するために,既存のフレームを事前知識として推定し,一貫した現在のフレームの回復を保証するために,一貫性と高精度な遅延空間伝搬による新しいVJDDフレームワークを提案する。 データ時間整合性(DTC)損失とリレーショナル知覚整合性(RPC)損失とがそれに従って設計される。 一般的なフローベース損失と比較して,不正確なフロー推定による誤差蓄積問題を回避し,映像の強度変化を効果的に処理し,テクスチャを保存しながら出力ビデオの時間的一貫性を大幅に向上させることができる。 広汎な実験により,回復精度,知覚的品質,時間的整合性の観点から,本手法の先行するVJDD性能が示された。 コードとデータセットは \url{https://github.com/guoshi28/vjdd} で利用可能である。

Denoising and demosaicking are two fundamental steps in reconstructing a clean full-color video from raw data, while performing video denoising and demosaicking jointly, namely VJDD, could lead to better video restoration performance than performing them separately. In addition to restoration accuracy, another key challenge to VJDD lies in the temporal consistency of consecutive frames. This issue exacerbates when perceptual regularization terms are introduced to enhance video perceptual quality. To address these challenges, we present a new VJDD framework by consistent and accurate latent space propagation, which leverages the estimation of previous frames as prior knowledge to ensure consistent recovery of the current frame. A data temporal consistency (DTC) loss and a relational perception consistency (RPC) loss are accordingly designed. Compared with the commonly used flow-based losses, the proposed losses can circumvent the error accumulation problem caused by inaccurate flow estimation and effectively handle intensity changes in videos, improving much the temporal consistency of output videos while preserving texture details. Extensive experiments demonstrate the leading VJDD performance of our method in term of restoration accuracy, perceptual quality and temporal consistency. Codes and dataset are available at \url{https://github.com/GuoShi28/VJDD}.
翻訳日:2023-12-29 20:15:40 公開日:2023-12-25
# 非パラメトリックプランナー可逆回帰における逆リスクのミニマックス解析

Minimax Analysis for Inverse Risk in Nonparametric Planer Invertible Regression ( http://arxiv.org/abs/2112.00213v3 )

ライセンス: Link先を確認
Akifumi Okuno, Masaaki Imaizumi(参考訳) 平面上の逆関数を推定するミニマックスリスクについて検討するが、推定器も可逆である。 データから可逆性を学び、可逆的推定器を利用する方法は、統計学、計量学、機械学習など、多くの領域で使われている。 可逆推定器の整合性と普遍性はよく研究されているが、これらの手法の効率性の解析はまだ進行中である。 本研究では, 2 次元平面上の正方形上の可逆双リプシッツ関数を推定するミニマックスリスクについて検討した。 まず2種類の$l^2$-riskを導入し,可逆性を保持する推定器を評価する。 次に、逆関数に関連するリスクに対するミニマックス値の下降率と上降率を導出する。 導出のために、レベルセットを用いた可逆関数の表現を利用する。 具体的には, 最大値を求めるために, ほぼすべての可逆的に漸近的に近似する推定器を開発し, その確率は対数因子から導出される最小値よりも低い値となる。 導出されたミニマックスレートは、非可逆双リプシッツ関数のそれに対応しており、その逆性は、その率の観点から推定問題の複雑さを減少させないことを示している。 %であり,他の形状制約と同様であった。

We study a minimax risk of estimating inverse functions on a plane, while keeping an estimator is also invertible. Learning invertibility from data and exploiting an invertible estimator are used in many domains, such as statistics, econometrics, and machine learning. Although the consistency and universality of invertible estimators have been well investigated, analysis of the efficiency of these methods is still under development. In this study, we study a minimax risk for estimating invertible bi-Lipschitz functions on a square in a $2$-dimensional plane. We first introduce two types of $L^2$-risks to evaluate an estimator which preserves invertibility. Then, we derive lower and upper rates for minimax values for the risks associated with inverse functions. For the derivation, we exploit a representation of invertible functions using level-sets. Specifically, to obtain the upper rate, we develop an estimator asymptotically almost everywhere invertible, whose risk attains the derived minimax lower rate up to logarithmic factors. The derived minimax rate corresponds to that of the non-invertible bi-Lipschitz function, which shows that the invertibility does not reduce the complexity of the estimation problem in terms of the rate. % the minimax rate, similar to other shape constraints.
翻訳日:2023-12-28 02:19:22 公開日:2023-12-25
# テール適応ベイズ収縮

Tail-adaptive Bayesian shrinkage ( http://arxiv.org/abs/2007.02192v3 )

ライセンス: Link先を確認
Se Yoon Lee, Peng Zhao, Debdeep Pati, Bani K. Mallick(参考訳) 現代のゲノム研究は、健康反応に関連するより興味深い遺伝子の発見にますます力を入れている。 従来の縮小前処理は、いわゆる超分離領域において、数万の予測器から少数の信号を検出するように設計されている。 しかし、間隔の度合いが適度である場合には、信号の識別に失敗する可能性がある。 多様な疎性体制下でのロバストスパース推定はテール適応収縮特性に依存する。 この特性において、前者のテール重みは適応的に調整され、空間レベルが増大または減少するにつれて大きくなり、より少ない信号に対応する。 本研究では,グローバル-ローカル-テール(GLT)ガウス混合分布を提案する。 本研究では,sparsityレベルとの関連において,前者のtail-indexの役割を検証し,sparse正規平均モデルのminimax最適速度でglt後端が収縮することを示す。 実データ問題やシミュレーションの例に先立って, GLT と Horseshoe をそれぞれ適用する。 以上の結果から,GLT先行法に基づく尾部規則は,多種多様性体制におけるHorseshoe法に基づく固定尾部規則よりも有利であることが示唆された。

Modern genomic studies are increasingly focused on discovering more and more interesting genes associated with a health response. Traditional shrinkage priors are primarily designed to detect a handful of signals from tens of thousands of predictors in the so-called ultra-sparsity domain. However, they may fail to identify signals when the degree of sparsity is moderate. Robust sparse estimation under diverse sparsity regimes relies on a tail-adaptive shrinkage property. In this property, the tail-heaviness of the prior adjusts adaptively, becoming larger or smaller as the sparsity level increases or decreases, respectively, to accommodate more or fewer signals. In this study, we propose a global-local-tail (GLT) Gaussian mixture distribution that ensures this property. We examine the role of the tail-index of the prior in relation to the underlying sparsity level and demonstrate that the GLT posterior contracts at the minimax optimal rate for sparse normal mean models. We apply both the GLT prior and the Horseshoe prior to real data problems and simulation examples. Our findings indicate that the varying tail rule based on the GLT prior offers advantages over a fixed tail rule based on the Horseshoe prior in diverse sparsity regimes.
翻訳日:2023-12-28 02:18:18 公開日:2023-12-25
# 強化学習による混合整数最適制御:ハイブリッド自動車エネルギー管理の事例研究

Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Vehicle Energy Management ( http://arxiv.org/abs/2305.01461v2 )

ライセンス: Link先を確認
Jinming Xu and Yuan Lin(参考訳) 多くの最適制御問題は連続および離散制御変数の同時出力を必要とする。 このような問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。 分岐とバウンドのような数値的な手法は計算コストが高く、リアルタイム制御には適さない。 本稿では,MIOC問題に対する2つの遅延深度決定論的アクターQ(TD3AQ)である連続離散強化学習(CDRL)アルゴリズムを提案する。 td3aqはアクタ-クリティックとq-ラーニングの両方の方法の利点を組み合わせることで、連続的および離散的なアクションスペースを同時に扱うことができる。 提案アルゴリズムは, 連続変数, エンジントルク, 離散変数のリアルタイム制御を行うプラグインハイブリッド電気自動車 (PHEV) エネルギー管理問題において, 運転制約を満たしつつ, 燃費を最大化するためには, 歯車シフトとクラッチエンゲージメント・ディスエンゲージメントが不可欠である。 シミュレーション結果から,TD3AQは動的プログラミング(DP)と比較してほぼ最適に制御でき,ベースライン強化学習アルゴリズムよりも優れていた。

Many optimal control problems require the simultaneous output of continuous and discrete control variables. Such problems are usually formulated as mixed-integer optimal control (MIOC) problems, which are challenging to solve due to the complexity of the solution space. Numerical methods such as branch-and-bound are computationally expensive and unsuitable for real-time control. This brief proposes a novel continuous-discrete reinforcement learning (CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC problems. TD3AQ combines the advantages of both actor-critic and Q-learning methods, and can handle the continuous and discrete action spaces simultaneously. The proposed algorithm is evaluated on a plug-in hybrid electric vehicle (PHEV) energy management problem, where real-time control of the continuous variable, engine torque, and discrete variables, gear shift and clutch engagement/disengagement is essential to maximize fuel economy while satisfying driving constraints. Simulation results on different drive cycles show that TD3AQ achieves near-optimal control compared to dynamic programming (DP) and outperforms baseline reinforcement learning algorithms.
翻訳日:2023-12-28 02:12:28 公開日:2023-12-25
# 視覚コモンセンス推論のためのマルチモーダル大言語モデル拡張擬似3次元知覚フレームワーク

Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning ( http://arxiv.org/abs/2301.13335v2 )

ライセンス: Link先を確認
Jian Zhu, Hanli Wang, Miaojing Shi(参考訳) visual commonsense reasoning (vcr)タスクは、ある回答を選択し、与えられた画像とテクストの質問に基づいて正当化の根拠を提供する。 代表はまず画像中のオブジェクトを認識し、次にテキスト中のキーワードと関連付ける。 しかし、既存のアプローチでは、物体の正確な位置を人間の3次元的な方法で考慮していないため、物体を正確に識別し、視覚的関係を理解する能力がない。 近年,Multi-modal large language model (MLLM) が複数のマルチモーダルタスクの強力なツールとして使用されているが,VCRには適用されていない。 以上を踏まえ、MLLM拡張擬似3次元認識フレームワークはVCR用に設計されている。 具体的には,物体間の関係が画像の物体深度に関係していることを示し,VCRフレームワークに物体深度を導入して画像中の物体の3次元位置を推定する。 次に,物体間の深度差をトランスフォーマーの注意機構にエンコードして,物体と深度で案内された視覚的シーンを識別する深度対応トランスフォーマーを提案する。 さらに、回答と視覚シーンの深度を関連付けるために、回答中の各単語に擬似深さをタグ付けして、回答語と対象との深度認識の関連性を実現する。 一方、MLLMとしてBLIP-2を用いて画像やテキストを処理し、特定の視覚オブジェクトを含むテキストの参照表現を言語オブジェクトラベルで修正し、理解しやすいMLLM入力として機能させる。 最後に,マルチレベル推論の信頼性に基づいて,データバッチの品質を十分に考慮するパラメータ最適化手法を考案した。 VCRデータセットの実験は、最先端アプローチよりも提案されたフレームワークの方が優れていることを示している。

The visual commonsense reasoning (VCR) task is to choose an answer and provide a justifying rationale based on the given image and textural question. Representative works first recognize objects in images and then associate them with key words in texts. However, existing approaches do not consider exact positions of objects in a human-like three-dimensional (3D) manner, making them incompetent to accurately distinguish objects and understand visual relation. Recently, multi-modal large language models (MLLMs) have been used as powerful tools for several multi-modal tasks but not for VCR yet, which requires elaborate reasoning on specific visual objects referred by texts. In light of the above, an MLLM enhanced pseudo 3D perception framework is designed for VCR. Specifically, we first demonstrate that the relation between objects is relevant to object depths in images, and hence introduce object depth into VCR frameworks to infer 3D positions of objects in images. Then, a depth-aware Transformer is proposed to encode depth differences between objects into the attention mechanism of Transformer to discriminatively associate objects with visual scenes guided by depth. To further associate the answer with the depth of visual scene, each word in the answer is tagged with a pseudo depth to realize depth-aware association between answer words and objects. On the other hand, BLIP-2 as an MLLM is employed to process images and texts, and the referring expressions in texts involving specific visual objects are modified with linguistic object labels to serve as comprehensible MLLM inputs. Finally, a parameter optimization technique is devised to fully consider the quality of data batches based on multi-level reasoning confidence. Experiments on the VCR dataset demonstrate the superiority of the proposed framework over state-of-the-art approaches.
翻訳日:2023-12-28 02:10:29 公開日:2023-12-25
# スパース添加モデルによる分類

Classification by sparse additive models ( http://arxiv.org/abs/2212.01792v3 )

ライセンス: Link先を確認
Felix Abramovich(参考訳) 我々は(非パラメトリック)スパース加法モデル(SpAM)を分類する。 SpAM分類器の設計は、正規直列(フーリエやウェーブレットなど)における単変量加法成分の展開係数に対するスパース群Lasso/Slope型ペナルティによるロジスティック損失の最小化に基づいている。 結果の分類器は、本質的に未知の空間性と滑らかさに適応する。 我々は、あるスパース群が固有値条件を制限した場合、解析的、ソボレフ的、ベッソフ的クラス全体にまたがってほぼ最小(対数分解まで)であることを示す。 提案する分類器の性能はシミュレーションおよび実データ例で示される。

We consider (nonparametric) sparse additive models (SpAM) for classification. The design of a SpAM classifier is based on minimizing the logistic loss with a sparse group Lasso/Slope-type penalties on the coefficients of univariate additive components' expansions in orthonormal series (e.g., Fourier or wavelets). The resulting classifier is inherently adaptive to the unknown sparsity and smoothness. We show that under certain sparse group restricted eigenvalue condition it is nearly-minimax (up to log-factors) simultaneously across the entire range of analytic, Sobolev and Besov classes. The performance of the proposed classifier is illustrated on a simulated and a real-data examples.
翻訳日:2023-12-28 02:08:18 公開日:2023-12-25
# MIMOのフェイディングチャンネル上での個人的オーバーエアフェデレーション学習

Differentially Private Over-the-Air Federated Learning Over MIMO Fading Channels ( http://arxiv.org/abs/2306.10982v3 )

ライセンス: Link先を確認
Hang Liu, Jia Yan, and Ying-Jun Angela Zhang(参考訳) フェデレートラーニング(FL)は、エッジデバイスが直接データアップロードを置き換えるモデル通信によって、機械学習モデルを協調的にトレーニングすることを可能にする。 無線によるモデル集約は通信効率を向上させるが、無線ネットワーク上のエッジサーバへのモデルアップロードはプライバシのリスクをもたらす可能性がある。 differential privacy (dp) は fl における統計データプライバシーを測定するために広く用いられている定量的手法である。 従来,ユーザレベルのDPを高めるために通信ノイズを活用する単一アンテナサーバを用いた無線FLに重点を置いてきた。 この手法は, 送電電力を制御し, 人工雑音などのデバイスにDP保存機構を導入することにより, いわゆる「自由DP」を実現する。 本稿では,マルチ入力多重出力(mimo)フェージングチャネル上での空気中flについて検討する。 複数のアンテナサーバとのflモデル通信は、モデル集約と情報推論のために別々の受信の組み合わせを用いるため、プライバシリークを増幅する。 したがって、マルチインプット単一出力システムにおける通信ノイズのみに依存して高いプライバシー要件を満たすことができず、最適なDP設計にはデバイス側プライバシ保護機構が必要である。 本研究では,flシステムの学習収束とプライバシー損失を分析し,交互最適化に基づくトランシーバ設計アルゴリズムを提案する。 計算結果から,提案手法は従来の作業よりも優れたプライバシー学習トレードオフを実現することが示された。

Federated learning (FL) enables edge devices to collaboratively train machine learning models, with model communication replacing direct data uploading. While over-the-air model aggregation improves communication efficiency, uploading models to an edge server over wireless networks can pose privacy risks. Differential privacy (DP) is a widely used quantitative technique to measure statistical data privacy in FL. Previous research has focused on over-the-air FL with a single-antenna server, leveraging communication noise to enhance user-level DP. This approach achieves the so-called "free DP" by controlling transmit power rather than introducing additional DP-preserving mechanisms at devices, such as adding artificial noise. In this paper, we study differentially private over-the-air FL over a multiple-input multiple-output (MIMO) fading channel. We show that FL model communication with a multiple-antenna server amplifies privacy leakage as the multiple-antenna server employs separate receive combining for model aggregation and information inference. Consequently, relying solely on communication noise, as done in the multiple-input single-output system, cannot meet high privacy requirements, and a device-side privacy-preserving mechanism is necessary for optimal DP design. We analyze the learning convergence and privacy loss of the studied FL system and propose a transceiver design algorithm based on alternating optimization. Numerical results demonstrate that the proposed method achieves a better privacy-learning trade-off compared to prior work.
翻訳日:2023-12-28 02:00:57 公開日:2023-12-25
# MFAS: 人間の認知を模した多視点統合アーキテクチャ検索による感情認識

MFAS: Emotion Recognition through Multiple Perspectives Fusion Architecture Search Emulating Human Cognition ( http://arxiv.org/abs/2306.09361v2 )

ライセンス: Link先を確認
Haiyang Sun, Fulin Zhang, Zheng Lian, Yingying Guo, Shilei Zhang(参考訳) 音声感情認識は、人間に似たターゲット音声における感情状態を特定し分析することを目的としている。 完璧な感情認識は、幅広い人間と機械の相互作用に大いに役立つ。 人間の感情理解のプロセスに触発されて,人間のような理解に類似した連続的な視点から音声コンテンツを理解することによって,より包括的な感情情報を取得することができることを示した。 また,音声中の特定の手がかりに基づいて,人間が感情的な単語の知覚を調整することを考えると,新しい検索空間を設計し,その2種類の情報に対する最適な融合戦略を探索する。 実験結果は、この知覚調整の意義をさらに検証する。 これらの観測に基づいて,MFAS(Multiple perspectives Fusion Architecture Search)と呼ばれる新しいフレームワークを提案する。 具体的には,連続的知識を用いて音声意味と量子化に基づく知識を捉え,テキスト意味を学習する。 次に,それらの最適核融合戦略を探索する。 実験の結果,MFASは音声感情情報を包括的にキャプチャする既存のモデルを超え,融合戦略を自動的に調整できることがわかった。

Speech emotion recognition aims to identify and analyze emotional states in target speech similar to humans. Perfect emotion recognition can greatly benefit a wide range of human-machine interaction tasks. Inspired by the human process of understanding emotions, we demonstrate that compared to quantized modeling, understanding speech content from a continuous perspective, akin to human-like comprehension, enables the model to capture more comprehensive emotional information. Additionally, considering that humans adjust their perception of emotional words in textual semantic based on certain cues present in speech, we design a novel search space and search for the optimal fusion strategy for the two types of information. Experimental results further validate the significance of this perception adjustment. Building on these observations, we propose a novel framework called Multiple perspectives Fusion Architecture Search (MFAS). Specifically, we utilize continuous-based knowledge to capture speech semantic and quantization-based knowledge to learn textual semantic. Then, we search for the optimal fusion strategy for them. Experimental results demonstrate that MFAS surpasses existing models in comprehensively capturing speech emotion information and can automatically adjust fusion strategy.
翻訳日:2023-12-28 02:00:01 公開日:2023-12-25
# 二重スリットとして働く単一原子による空洞光の干渉

Interference of cavity light by a single atom acting as a double slit ( http://arxiv.org/abs/2306.07037v2 )

ライセンス: Link先を確認
Yijia Zhou, Xinwei Li, Weibin Li, Hao Zhang(参考訳) ヤングの二重スリット干渉実験は量子力学の中心である。 原子の配列が光の干渉を引き起こすことが証明されているが、単一の原子が2つの異なる位置の重ね合わせで準備されたときに二重スリットとして振る舞うことができるかどうかを問うことは根本的な問題である。 Cohen-Tannoudjiら。 [M. Ducloy, E. Giacobino, G. Camy (World Scientific, Singapore, 1992), pp. 3-14] が編集した第10回レーザー分光国際会議は, 単一原子が散乱する光の断面が空間的分離に依存していることを示した。 しかし, この研究では, 二重井戸内の1つの原子トンネルが光リング空洞に結合している場合, トンネル速度が空洞線幅に匹敵する場合には干渉現象が生じることを示した。 分散状態において外部レーザーによって駆動されるため、原子がキャビティに放出する磁場は二重井戸間隔を変化させる際に干渉パターンを示す。 超ポアソニアン束光は破壊的干渉の近くでも生成できる。 さらに,コヒーレントトンネル運動の原子フラックスは,原子運動のデコヒーレンスとキャビティ光子の崩壊の前に多くのサイクルにわたって振動する方向キャビティ放出を生じさせることを示した。 我々の研究は、量子情報応用のための原子の制御可能な外部状態で光子を操作する方法を開き、原子系の多体状態の非破壊測定として空洞光を用いる。

Young's double-slit interference experiment is central to quantum mechanics. While it has been demonstrated that an array of atoms can produce interference in light, it is a fundamental question to ask whether a single atom can act as a double slit when prepared in a superposition of two separate positions. Cohen-Tannoudji et al. [Proceedings of the Tenth International Conference on Laser Spectroscopy, edited by M. Ducloy, E. Giacobino, and G. Camy (World Scientific, Singapore, 1992), pp. 3-14] showed that the cross section of the light scattered by a single atom is independent of the spatial separation. In this work, however, we show that when a single atom tunneling in a double well is coupled to an optical ring cavity, the interference phenomena arise if the tunneling rate is comparable to the cavity linewidth. Being driven by an external laser in the dispersive regime, the field emitted by the atom into the cavity exhibits an interference pattern when varying the double-well spacing. Super-Poissonian bunched light can also be generated near the destructive interference. Furthermore, we show that the atomic flux of the coherent tunneling motion generates directional cavity emission, which oscillates for many cycles before the decoherence of the atomic motion and the decay of the cavity photons. Our work opens ways to manipulate photons with controllable external states of atoms for quantum information applications and use cavity light as nondestructive measurements for many-body states of atomic systems.
翻訳日:2023-12-28 01:59:41 公開日:2023-12-25
# 数保存周期駆動p$-wave超伝導体における一般化マヨラナエッジモード

Generalized Majorana edge modes in a number-conserving periodically driven $p$-wave superconductor ( http://arxiv.org/abs/2309.01163v2 )

ライセンス: Link先を確認
Raditya Weda Bomantara(参考訳) 解析的かつ実験的に関連のある数保存型周期駆動の超伝導体であるp$-waveについて検討した。 このようなシステムは一般化された majorana 0 と $\pi$ モードをサポートしており、非エルミート型であるにもかかわらず、まだ qubit をエンコードできる。 さらに、そのような一般化マヨラナモードの位相を特徴付ける適切な巻数を定義し、明示的に計算する。 さらに、有限電荷エネルギーの存在下で得られた一般化マヨラナモードの運命について論じる。 最後に、エンコードされた量子ビットのロバスト性を示し、一般化されたマヨラナモードのペアを明示的にブレイディングすることで、そのようなモードの量子コンピューティングの展望に光を当てた。

We study an analytically solvable and experimentally relevant number-conserving periodically driven $p$-wave superconductor. Such a system is found to support generalized Majorana zero and $\pi$ modes which, despite being non-Hermitian, are still capable of encoding qubits. Moreover, appropriate winding numbers characterizing the topology of such generalized Majorana modes are defined and explicitly calculated. We further discuss the fate of the obtained generalized Majorana modes in the presence of finite charging energy. Finally, we shed light on the quantum computing prospects of such modes by demonstrating the robustness of their encoded qubits and explicitly braiding a pair of generalized Majorana modes.
翻訳日:2023-12-28 01:49:47 公開日:2023-12-25
# データ駆動意思決定型サロゲートモデリング

Data-driven decision-focused surrogate modeling ( http://arxiv.org/abs/2308.12161v2 )

ライセンス: Link先を確認
Rishabh Gupta, Qi Zhang(参考訳) 本稿では,リアルタイム環境での非線形最適化問題を解くために,決定焦点のサーロゲートモデリングという概念を導入する。 提案するデータ駆動フレームワークは、決定予測誤差を最小化するために訓練されたconvex、surrogate最適化モデルといった、オリジナルの最適解とsurrogate最適化モデルの差異を学習することを目的としている。 バイレベルプログラムとして定式化された学習問題はデータ駆動逆最適化問題と見なすことができる。 本研究では, 化学炉, 熱交換器ネットワーク, 材料混合システムなどの非線形化学プロセスの最適化に関する数値実験を通じて, 枠組みを検証する。 また,標準データ駆動サーロゲートモデリング手法との意思決定中心サーロゲートモデリングの詳細な比較を行い,決定予測精度の高い単純なサーロゲートモデルを作成することにより,データ効率が大幅に向上することを示す。

We introduce the concept of decision-focused surrogate modeling for solving computationally challenging nonlinear optimization problems in real-time settings. The proposed data-driven framework seeks to learn a simpler, e.g. convex, surrogate optimization model that is trained to minimize the decision prediction error, which is defined as the difference between the optimal solutions of the original and the surrogate optimization models. The learning problem, formulated as a bilevel program, can be viewed as a data-driven inverse optimization problem to which we apply a decomposition-based solution algorithm from previous work. We validate our framework through numerical experiments involving the optimization of common nonlinear chemical processes such as chemical reactors, heat exchanger networks, and material blending systems. We also present a detailed comparison of decision-focused surrogate modeling with standard data-driven surrogate modeling methods and demonstrate that our approach is significantly more data-efficient while producing simple surrogate models with high decision prediction accuracy.
翻訳日:2023-12-28 01:48:48 公開日:2023-12-25
# 明示的校正を示唆する:騒音モデルの代わりに校正法

Make Explicit Calibration Implicit: Calibrate Denoiser Instead of the Noise Model ( http://arxiv.org/abs/2308.03448v2 )

ライセンス: Link先を確認
Xin Jin, Jia-Wen Xiao, Ling-Hao Han, Chunle Guo, Xialei Liu, Chongyi Li, Ming-Ming Cheng(参考訳) 超低照度環境下でRAW画像が顕著な校正法で支配されている。 しかし、これらの方法にはいくつかの限界がある。 a) 明示的な校正プロセスは、労働と時間集約の両方である。 b) 異なるカメラモデル間でデノイザを転送する際の課題 c) 合成音と実音との差は、デジタル利得によって悪化する。 これらの問題に対処するために、デジタルゲインやカメラセンサーに関係なく有効であるLED(Lighting Every Darkness)という画期的なパイプラインを導入する。 LEDは明示的なノイズモデルのキャリブレーションの必要性を排除し、高速な展開と最小限のデータを必要とする暗黙の微調整プロセスを活用する。 構造的な変更は、余分な計算要求を伴わずに合成ノイズと実雑音の差を低減するためにも含まれる。 提案手法は,デジタルゲイン当たり数対,典型的なイテレーションの0.5%に過ぎず,公開データセットにない新しいものを含む,さまざまなカメラモデルにおける既存手法を上回る。 さらにLEDは、センサー工学の利点を生かしながら、ディープラーニングの進歩に集中することができる。 コードと関連資料はhttps://srameo.github.io/projects/led-iccv23/にある。

Explicit calibration-based methods have dominated RAW image denoising under extremely low-light environments. However, these methods are impeded by several critical limitations: a) the explicit calibration process is both labor- and time-intensive, b) challenge exists in transferring denoisers across different camera models, and c) the disparity between synthetic and real noise is exacerbated by digital gain. To address these issues, we introduce a groundbreaking pipeline named Lighting Every Darkness (LED), which is effective regardless of the digital gain or the camera sensor. LED eliminates the need for explicit noise model calibration, instead utilizing an implicit fine-tuning process that allows quick deployment and requires minimal data. Structural modifications are also included to reduce the discrepancy between synthetic and real noise without extra computational demands. Our method surpasses existing methods in various camera models, including new ones not in public datasets, with just a few pairs per digital gain and only 0.5% of the typical iterations. Furthermore, LED also allows researchers to focus more on deep learning advancements while still utilizing sensor engineering benefits. Code and related materials can be found in https://srameo.github.io/projects/led-iccv23/ .
翻訳日:2023-12-28 01:47:18 公開日:2023-12-25
# SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability ( http://arxiv.org/abs/2308.03266v4 )

ライセンス: Link先を確認
Xian Shi, Yexin Yang, Zerui Li, Yanni Chen, Zhifu Gao, Shiliang Zhang(参考訳) ホットワードのカスタマイズ(Hotword customization)は、ASRのフィールドに残る問題の一つであり、ASRシステムの利用者がエンティティ、人、その他のフレーズの名前をカスタマイズしてより良い経験を得ることを可能にするために価値がある。 過去数年間、asrコンテキスト化のための効果的なモデリング戦略が開発されてきたが、トレーニングの安定性と目に見えないアクティベーションプロセスに関する改善の余地がある。 本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。 AEDベースのモデルの精度、NARモデルの効率、そして優れたパフォーマンスの明示的なカスタマイズ能力の利点を持っている。 5万時間に及ぶ産業用ビッグデータを用いた広範な実験を通じて,提案手法は,カスタマイズにおける強力なベースラインを上回っている。 さらに,大規模なホットワードをフィルタリングし,さらなる改良を行うための効率的な方法を探究する。 比較した産業モデルは、ソースコードと2つのホットワードテストセットがすべてオープンソースである。

Hotword customization is one of the concerned issues remained in ASR field - it is of value to enable users of ASR systems to customize names of entities, persons and other phrases to obtain better experience. The past few years have seen effective modeling strategies for ASR contextualization developed, but they still exhibit space for improvement about training stability and the invisible activation process. In this paper we propose Semantic-Augmented Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with flexible and effective hotword customization ability. It possesses the advantages of AED-based model's accuracy, NAR model's efficiency, and explicit customization capacity of superior performance. Through extensive experiments with 50,000 hours of industrial big data, our proposed model outperforms strong baselines in customization. Besides, we explore an efficient way to filter large-scale incoming hotwords for further improvement. The industrial models compared, source codes and two hotword test sets are all open source.
翻訳日:2023-12-28 01:46:58 公開日:2023-12-25
# 大規模言語モデルによるコネクテッドインテリジェンスのための自律エッジAI

Large Language Models Empowered Autonomous Edge AI for Connected Intelligence ( http://arxiv.org/abs/2307.02779v3 )

ライセンス: Link先を確認
Yifei Shen, Jiawei Shao, Xinjie Zhang, Zehong Lin, Hao Pan, Dongsheng Li, Jun Zhang, Khaled B. Letaief(参考訳) ワイヤレスネットワークの進化は、超接続されたサイバー物理世界における人間、物体、および知性のシームレスな相互接続を想定した、コネクテッド・インテリジェンス(connected intelligence)へと向かっている。 エッジ人工知能(Edge AI)は、ネットワークエッジで高品質で低レイテンシ、プライバシ保護のAIサービスを提供することで、コネクテッドインテリジェンスを実現するための有望なソリューションである。 本稿では,大規模言語モデル(LLM)のパワー,すなわち生成事前学習型トランスフォーマー(GPT)を活用することによって,ユーザのさまざまな要件を自動で整理,適応,最適化する自律エッジAIシステムのビジョンを示す。 言語理解,計画,コード生成におけるGPTの強力な能力を活用するとともに,タスク指向コミュニケーションやエッジフェデレーション学習といった古典的な知恵を取り入れることで,エッジAIモデルを効率よくコーディネートし,ユーザの個人的要求に応えるとともに,プライバシ保護の方法で新たなモデルをトレーニングするためのコードの自動生成を行う,汎用的なフレームワークを提案する。 実験結果は、ユーザの要求を正確に理解し、最小限のコストでaiモデルを効率的に実行し、エッジサーバで高性能なaiモデルを効果的に作成するシステムの驚くべき能力を示している。

The evolution of wireless networks gravitates towards connected intelligence, a concept that envisions seamless interconnectivity among humans, objects, and intelligence in a hyper-connected cyber-physical world. Edge artificial intelligence (Edge AI) is a promising solution to achieve connected intelligence by delivering high-quality, low-latency, and privacy-preserving AI services at the network edge. This article presents a vision of autonomous edge AI systems that automatically organize, adapt, and optimize themselves to meet users' diverse requirements, leveraging the power of large language models (LLMs), i.e., Generative Pretrained Transformer (GPT). By exploiting the powerful abilities of GPT in language understanding, planning, and code generation, as well as incorporating classic wisdom such as task-oriented communication and edge federated learning, we present a versatile framework that efficiently coordinates edge AI models to cater to users' personal demands while automatically generating code to train new models in a privacy-preserving manner. Experimental results demonstrate the system's remarkable ability to accurately comprehend user demands, efficiently execute AI models with minimal cost, and effectively create high-performance AI models at edge servers.
翻訳日:2023-12-28 01:44:25 公開日:2023-12-25
# Co-NavGPT:大規模言語モデルを用いた複数ロボット協調視覚セマンティックナビゲーション

Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models ( http://arxiv.org/abs/2310.07937v2 )

ライセンス: Link先を確認
Bangguo Yu, Hamidreza Kasaei, Ming Cao(参考訳) 高度な人間とロボットのインタラクションタスクでは、未知の環境をナビゲートする自律ロボットにとって視覚的ターゲットナビゲーションが不可欠である。 過去に多くのアプローチが開発されてきたが、ほとんどは単一ロボットの操作用に設計されており、環境の複雑さにより効率と堅牢性が低下することが多い。 さらに、マルチロボットコラボレーションのための学習ポリシーはリソース集約的である。 このような課題に対処するため,我々は多ロボット協調視覚目標ナビゲーションのためのグローバルプランナとして大規模言語モデル(LLM)を統合する革新的なフレームワークであるCo-NavGPTを提案する。 Co-NavGPTは、探索された環境データをプロンプトにエンコードし、LLMのシーン理解を強化する。 その後、探索フロンティアを各ロボットに割り当て、効率的な目標探索を行う。 Habitat-Matterport 3D(HM3D)の実験結果は、Co-NavGPTが学習プロセスなしで既存のモデルよりも成功率と効率を上回り、マルチロボット協調領域におけるLLMの膨大な可能性を示している。 追加ビデオ、プロンプト、コードは以下のリンクからアクセスできる。

In advanced human-robot interaction tasks, visual target navigation is crucial for autonomous robots navigating unknown environments. While numerous approaches have been developed in the past, most are designed for single-robot operations, which often suffer from reduced efficiency and robustness due to environmental complexities. Furthermore, learning policies for multi-robot collaboration are resource-intensive. To address these challenges, we propose Co-NavGPT, an innovative framework that integrates Large Language Models (LLMs) as a global planner for multi-robot cooperative visual target navigation. Co-NavGPT encodes the explored environment data into prompts, enhancing LLMs' scene comprehension. It then assigns exploration frontiers to each robot for efficient target search. Experimental results on Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT surpasses existing models in success rates and efficiency without any learning process, demonstrating the vast potential of LLMs in multi-robot collaboration domains. The supplementary video, prompts, and code can be accessed via the following link: https://sites.google.com/view/co-navgpt
翻訳日:2023-12-28 01:36:35 公開日:2023-12-25
# 大規模言語モデルからエンドツーエンドasrシステムへの多重表現転送

Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems ( http://arxiv.org/abs/2309.04031v2 )

ライセンス: Link先を確認
Takuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Masayasu Muraoka, George Saon(参考訳) 大規模言語モデル(LLM)の知識の伝達は,言語知識をエンドツーエンドの自動音声認識(ASR)システムに組み込む上で有望な手法である。 しかし、既存の著作物は LLM の単一の表現(例えば、事前訓練された BERT の最後の層)のみを転送するが、テキストの表現は本質的に非普遍的であり、異なるレイヤ、コンテキスト、モデルから様々な方法で得ることができる。 本研究では,LLMの複数の表現をトランスデューサベースのASRシステムに変換するための幅広い手法について検討する。 概念的には単純であるが,LLMの複数の表現の転送は,単一の表現のみの転送に有効な方法であることを示す。

Transferring the knowledge of large language models (LLMs) is a promising technique to incorporate linguistic knowledge into end-to-end automatic speech recognition (ASR) systems. However, existing works only transfer a single representation of LLM (e.g. the last layer of pretrained BERT), while the representation of a text is inherently non-unique and can be obtained variously from different layers, contexts and models. In this work, we explore a wide range of techniques to obtain and transfer multiple representations of LLMs into a transducer-based ASR system. While being conceptually simple, we show that transferring multiple representations of LLMs can be an effective alternative to transferring only a single representation.
翻訳日:2023-12-28 01:32:50 公開日:2023-12-25
# もっと活発にしろ! 変分オートエンコーダの意味とサンプル表現の差異を理解する

Be More Active! Understanding the Differences between Mean and Sampled Representations of Variational Autoencoders ( http://arxiv.org/abs/2109.12679v4 )

ライセンス: Link先を確認
Lisa Bonheme and Marek Grzes(参考訳) 変分オートエンコーダが異種表現を学習する能力は、実用的応用に魅力的である。 しかし、下流のタスクに一般的に使用される平均表現は、通常、アンタングルメントが測定されるサンプルよりも相関性が高いことが最近示されている。 本稿では,学習表現のサブセットであるアクティブ変数のみが有用な情報をエンコードし,残り(パッシブ変数)は破棄されるという,選択的後方崩壊のレンズを通してこの観察を洗練する。 まず、既存の定義を複数のデータ例に拡張し、アクティブ変数が平均およびサンプル表現で等しく歪められていることを示す。 この拡張と、乱れlibから事前学習されたモデルに基づいて、受動的変数を分離し、平均表現とサンプル表現の相違に責任があることを示す。 具体的には、受動的変数は他の変数と平均表現において高い相関スコアを示し、サンプル変数では完全に相関しない。 したがって、それらの高い相関関係が示唆するものにもかかわらず、平均表現は下流タスクアプリケーションにとっていまだに良い候補である、と結論づける。 しかし、特に相関した特徴に敏感なモデルを使用する場合、受動的変数を削除することは有益である。

The ability of Variational Autoencoders to learn disentangled representations has made them appealing for practical applications. However, their mean representations, which are generally used for downstream tasks, have recently been shown to be more correlated than their sampled counterpart, on which disentanglement is usually measured. In this paper, we refine this observation through the lens of selective posterior collapse, which states that only a subset of the learned representations, the active variables, is encoding useful information while the rest (the passive variables) is discarded. We first extend the existing definition to multiple data examples and show that active variables are equally disentangled in mean and sampled representations. Based on this extension and the pre-trained models from disentanglement lib, we then isolate the passive variables and show that they are responsible for the discrepancies between mean and sampled representations. Specifically, passive variables exhibit high correlation scores with other variables in mean representations while being fully uncorrelated in sampled ones. We thus conclude that despite what their higher correlation might suggest, mean representations are still good candidates for downstream tasks applications. However, it may be beneficial to remove their passive variables, especially when used with models sensitive to correlated features.
翻訳日:2023-12-27 23:38:43 公開日:2023-12-25
# 加速度磁気共鳴イメージングのための忠実深部感度推定法

A Faithful Deep Sensitivity Estimation for Accelerated Magnetic Resonance Imaging ( http://arxiv.org/abs/2210.12723v3 )

ライセンス: Link先を確認
Zi Wang, Haoming Fang, Chen Qian, Boxuan Shi, Lijun Bao, Liuhong Zhu, Jianjun Zhou, Wenping Wei, Jianzhong Lin, Di Guo, Xiaobo Qu(参考訳) 磁気共鳴イメージング(MRI)は、長期間のスキャンに苦しむ重要な診断ツールである。 この制限を緩和するため、高度な高速MRI技術は幅広い研究の関心を集めている。 最近のディープラーニングは、画像の品質と再構築速度を改善する大きな可能性を示している。 MRI再建にはコイル感度推定が不可欠である。 しかし、多くの深層学習手法は、まだ事前推定された感度マップに依存しており、それらの不正確さを無視しているため、再構成画像の大幅な品質劣化が生じる。 本研究では,JDSIと呼ばれる統合深度感性推定と画像再構成ネットワークを提案する。 画像アーティファクト除去の間、より忠実な感度マップと高周波情報を徐々に提供し、画像再構成の改善に繋がる。 ネットワークの動作を理解するため、ネットワーク中間結果の可視化により、感度推定と画像再構成の相互促進を明らかにする。 生体内データセットとラジオロジスト読影器を用いて, キャリブレーションベースとキャリブレーションレス再構築の両方において, 提案したJDSIは, 特にアクセラレーション係数が高い場合に, 視覚的かつ定量的に, 最先端の性能を達成することを示した。 さらに、JDSIは患者と自己校正信号に優れた堅牢性を持っている。

Magnetic resonance imaging (MRI) is an essential diagnostic tool that suffers from prolonged scan time. To alleviate this limitation, advanced fast MRI technology attracts extensive research interests. Recent deep learning has shown its great potential in improving image quality and reconstruction speed. Faithful coil sensitivity estimation is vital for MRI reconstruction. However, most deep learning methods still rely on pre-estimated sensitivity maps and ignore their inaccuracy, resulting in the significant quality degradation of reconstructed images. In this work, we propose a Joint Deep Sensitivity estimation and Image reconstruction network, called JDSI. During the image artifacts removal, it gradually provides more faithful sensitivity maps with high-frequency information, leading to improved image reconstructions. To understand the behavior of the network, the mutual promotion of sensitivity estimation and image reconstruction is revealed through the visualization of network intermediate results. Results on in vivo datasets and radiologist reader study demonstrate that, for both calibration-based and calibrationless reconstruction, the proposed JDSI achieves the state-of-the-art performance visually and quantitatively, especially when the acceleration factor is high. Additionally, JDSI owns nice robustness to patients and autocalibration signals.
翻訳日:2023-12-27 23:33:15 公開日:2023-12-25
# 有限1次元系の測度に基づく量子計算:弦順序は計算力を意味する

Measurement-based quantum computation in finite one-dimensional systems: string order implies computational power ( http://arxiv.org/abs/2210.05089v4 )

ライセンス: Link先を確認
Robert Raussendorf, Wang Yang, and Arnab Adhikary(参考訳) 本研究では,空間次元1において,近距離対称資源状態における測定ベース量子計算(MBQC)のパワーを評価するための新しい枠組みを提案する。 既知よりも少ない仮定を必要とする。 形式主義は有限拡張系(熱力学の極限とは対照的に)を扱うことができ、翻訳不変性を必要としない。 さらに,MBQC計算パワーと文字列順序との接続性を強化する。 すなわち、適切な文字列順序パラメータの集合が 0 でないとき、対応するユニタリゲートの集合が任意にユニタリに近い忠実度で実現可能であることを確かめる。

We present a new framework for assessing the power of measurement-based quantum computation (MBQC) on short-range entangled symmetric resource states, in spatial dimension one. It requires fewer assumptions than previously known. The formalism can handle finitely extended systems (as opposed to the thermodynamic limit), and does not require translation-invariance. Further, we strengthen the connection between MBQC computational power and string order. Namely, we establish that whenever a suitable set of string order parameters is non-zero, a corresponding set of unitary gates can be realized with fidelity arbitrarily close to unity.
翻訳日:2023-12-27 23:32:53 公開日:2023-12-25
# EHRSQL: 電子健康記録のための実践的なテキストからSQLのベンチマーク

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records ( http://arxiv.org/abs/2301.07695v5 )

ライセンス: Link先を確認
Gyubok Lee, Hyeonji Hwang, Seongsu Bae, Yeonsu Kwon, Woncheol Shin, Seongjun Yang, Minjoon Seo, Jong-Yeup Kim, Edward Choi(参考訳) 電子健康記録(EHR)のための新しいテキスト間SQLデータセットを提案する。 発話は、医師、看護師、保険審査および健康記録チームを含む222人の病院スタッフから集められた。 構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,種問合せの作成に回答した。 次に、これらの質問をMIMIC-IIIとeICUの2つのオープンソースのEHRデータベースに手動でリンクし、様々な時間表現と、この調査から収集されたデータセットに持たない質問を含む。 私たちのデータセットには、ユニークな課題があります。 1) 病院における幅広いニーズを反映したsqlクエリを生成し、簡単な検索や生存率の計算などの複雑な操作を含む。 2)医療における時間感性質問に対する各種時間表現の理解と対応 3) ある質問が回答可能か否かを区別する。 当社のデータセットであるEHRSQLは、構造化されたEHRデータ上でのQAモデルの開発と評価のための実用的なベンチマークとして機能し、テキストからSQLまでの研究と、その医療における実際の展開のギャップを埋めるための一歩を踏み出すことができると考えています。 EHRSQLはhttps://github.com/glee4810/EHRSQLで入手できる。

We present a new text-to-SQL dataset for electronic health records (EHRs). The utterances were collected from 222 hospital staff members, including physicians, nurses, and insurance review and health records teams. To construct the QA dataset on structured EHR data, we conducted a poll at a university hospital and used the responses to create seed questions. We then manually linked these questions to two open-source EHR databases, MIMIC-III and eICU, and included various time expressions and held-out unanswerable questions in the dataset, which were also collected from the poll. Our dataset poses a unique set of challenges: the model needs to 1) generate SQL queries that reflect a wide range of needs in the hospital, including simple retrieval and complex operations such as calculating survival rate, 2) understand various time expressions to answer time-sensitive questions in healthcare, and 3) distinguish whether a given question is answerable or unanswerable. We believe our dataset, EHRSQL, can serve as a practical benchmark for developing and assessing QA models on structured EHR data and take a step further towards bridging the gap between text-to-SQL research and its real-life deployment in healthcare. EHRSQL is available at https://github.com/glee4810/EHRSQL.
翻訳日:2023-12-27 23:19:44 公開日:2023-12-25
# PBScaler: マイクロサービスベースのアプリケーションのためのBottleneck対応オートスケーリングフレームワーク

PBScaler: A Bottleneck-aware Autoscaling Framework for Microservice-based Applications ( http://arxiv.org/abs/2303.14620v3 )

ライセンス: Link先を確認
Shuaiyu Xie, Jian Wang, Bing Li, Zekun Zhang, Duantengchuan Li, Patrick C. K. H(参考訳) 動的ワークロードを持つクラウドアプリケーションの最適なパフォーマンスとリソース利用を確保するには、自動スケーリングが不可欠である。 しかしながら、従来の自動スケーリング技術は、さまざまなワークロードパターンとマイクロサービス間の複雑なインタラクションのため、マイクロサービスベースのアプリケーションではもはや適用できない。 具体的には、インタラクションによるパフォーマンス異常の伝播は、多数の異常なマイクロサービスにつながるため、ルートパフォーマンスボトルネック(PB)を特定し、適切なスケーリング戦略を定式化するのは難しい。 さらに、リソース消費とパフォーマンスのバランスをとるために、オンライン最適化アルゴリズムに基づく既存の主流のアプローチは、複数のイテレーションを必要とするため、振動を引き起こし、パフォーマンス低下の可能性を高める。 これらの問題に対処するため,我々は,マイクロサービスベースのアプリケーションのパフォーマンス低下を防止するために設計されたボトルネック対応自動スケーリングフレームワークpbscalerを提案する。 PBScalerの重要な洞察はPBを見つけることである。 そこで本稿では,不要なスケーリングを低減すべく,位相ポテンシャルに基づく新しいランダムウォークアルゴリズムであるtoporankを提案する。 toporankとオフラインのパフォーマンスアウェア最適化アルゴリズムを統合することで、pbscalerはオンラインアプリケーションを混乱させることなくレプリカ管理を最適化する。 PBScalerは、リソースを効率的に保存しながら、パフォーマンス上の問題を軽減し、既存の最先端のアプローチよりも優れていることを示す総合的な実験である。

Autoscaling is critical for ensuring optimal performance and resource utilization in cloud applications with dynamic workloads. However, traditional autoscaling technologies are typically no longer applicable in microservice-based applications due to the diverse workload patterns and complex interactions between microservices. Specifically, the propagation of performance anomalies through interactions leads to a high number of abnormal microservices, making it difficult to identify the root performance bottlenecks (PBs) and formulate appropriate scaling strategies. In addition, to balance resource consumption and performance, the existing mainstream approaches based on online optimization algorithms require multiple iterations, leading to oscillation and elevating the likelihood of performance degradation. To tackle these issues, we propose PBScaler, a bottleneck-aware autoscaling framework designed to prevent performance degradation in a microservice-based application. The key insight of PBScaler is to locate the PBs. Thus, we propose TopoRank, a novel random walk algorithm based on the topological potential to reduce unnecessary scaling. By integrating TopoRank with an offline performance-aware optimization algorithm, PBScaler optimizes replica management without disrupting the online application. Comprehensive experiments demonstrate that PBScaler outperforms existing state-of-the-art approaches in mitigating performance issues while conserving resources efficiently.
翻訳日:2023-12-27 23:08:41 公開日:2023-12-25
# EmotionIC:会話における感情認識のための感情慣性と伝染型依存モデル

EmotionIC: Emotional Inertia and Contagion-Driven Dependency Modeling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2303.11117v4 )

ライセンス: Link先を確認
Yingjian Liu, Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 近年,人間とコンピュータのインターフェース技術の発展と実装により,会話における感情認識(ERC)が注目されている。 本稿では,情緒的慣性(Emotional Inertia and Contagion)によるERCタスクの依存性モデリングに対する新しいアプローチを提案する。 EmotionICは,IMMHA(Identity Masked Multi-Head Attention),DiaGRU(Gated Recurrent Unit),Skip-chain Conditional Random Field(SkipCRF)の3つの主要コンポーネントから構成される。 従来のERCモデルと比較して、EmotionICは特徴抽出レベルと分類レベルの両方で会話をより徹底的にモデル化することができる。 提案モデルは,注意と反復に基づく手法の利点を特徴抽出レベルで統合しようとするものである。 具体的には、IDベースのグローバルコンテキスト依存をキャプチャするためにIMMHAを適用し、DiaGRUは話者と時間を考慮したローカルコンテキスト情報を抽出する。 分類レベルでは、SkipCRFは会話中の高次隣接発話からの複雑な感情フローを明示的にマイニングすることができる。 実験の結果,本手法は4つのベンチマークデータセットにおいて,最先端モデルを大幅に上回ることができることがわかった。 アブレーション研究は、我々のモジュールが感情の慣性や伝染を効果的にモデル化できることを確認した。

Emotion Recognition in Conversation (ERC) has attracted growing attention in recent years as a result of the advancement and implementation of human-computer interface technologies. In this paper, we propose a novel approach to dependency modeling driven by Emotional Inertia and Contagion (EmotionIC) for ERC task. Our EmotionIC consists of three main components, i.e., Identity Masked Multi-Head Attention (IMMHA), Dialogue-based Gated Recurrent Unit (DiaGRU), and Skip-chain Conditional Random Field (SkipCRF). Compared to previous ERC models, EmotionIC can model a conversation more thoroughly at both the feature-extraction and classification levels. The proposed model attempts to integrate the advantages of attention- and recurrence-based methods at the feature-extraction level. Specifically, IMMHA is applied to capture identity-based global contextual dependencies, while DiaGRU is utilized to extract speaker- and temporal-aware local contextual information. At the classification level, SkipCRF can explicitly mine complex emotional flows from higher-order neighboring utterances in the conversation. Experimental results show that our method can significantly outperform the state-of-the-art models on four benchmark datasets. The ablation studies confirm that our modules can effectively model emotional inertia and contagion.
翻訳日:2023-12-27 23:07:40 公開日:2023-12-25
# 量子コヒーレント冷却による局所最小化

Escaping Local Minima with Quantum Coherent Cooling ( http://arxiv.org/abs/2302.10427v2 )

ライセンス: Link先を確認
Jia-Jin Feng, Biao Wu(参考訳) 量子冷却は量子コンピューティングにおける可能性を示しており、外部信号に必要な制御チャネルの数を削減できる。 近年の進歩は、大規模システムにおける量子コヒーレンスを維持する可能性も支持している。 コスト関数の局所最小値に閉じ込められた古典的アルゴリズムの制限は、このスキームで克服できる。 そこで本研究では,大域最小値を求めるためのハイブリッド量子古典アルゴリズムを提案する。 我々の手法は量子コヒーレント冷却を利用して、古典的なアルゴリズムが止まった場合、エネルギー障壁を通るコーディネートトンネルを容易にする。 符号化されたハミルトン系はコスト関数を表し、基底状態の量子コヒーレント浴は系のエネルギーを吸収するヒートシンクとして機能する。 提案手法は量子空洞を用いた回路量子電磁力学 (cqed) システムで実装可能である。 得られた数値的な証拠はスピングラス問題を解く際の量子的優位性を示している。

Quantum cooling has demonstrated its potential in quantum computing, which can reduce the number of control channels needed for external signals. Recent progress also supports the possibility of maintaining quantum coherence in large-scale systems. The limitations of classical algorithms trapped in local minima of cost functions could be overcome using this scheme. According to this, we propose a hybrid quantum-classical algorithm for finding the global minima. Our approach utilizes quantum coherent cooling to facilitate coordinative tunneling through energy barriers if the classical algorithm gets stuck. The encoded Hamiltonian system represents the cost function, and a quantum coherent bath in the ground state serves as a heat sink to absorb energy from the system. Our proposed scheme can be implemented in the circuit quantum electrodynamics (cQED) system using a quantum cavity. The provided numerical evidence demonstrates the quantum advantage in solving spin glass problems.
翻訳日:2023-12-27 23:06:01 公開日:2023-12-25
# 弱教師付き時間行動定位のためのビデオ特異的クエリーキー注意モデル

Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2305.04186v3 )

ライセンス: Link先を確認
Xijun Wang, Aggelos K. Katsaggelos(参考訳) 弱教師付き時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、未トリミングビデオ中のアクションインスタンスを特定し、ローカライズすることを目的としている。 人間がビデオを見るとき、さまざまなビデオシナリオにおけるアクションに関する抽象的な知識を適応させ、いくつかのアクションが起こっているかどうかを検出することができます。 本稿では,人間がどのように行動するかを模倣し,ビデオ中の複数のアクションを特定し識別するための新しい視点をもたらす。 本稿では,vqk-net というネットワークを提案し,各入力ビデオのアクションカテゴリ毎にユニークなクエリを学習する,ビデオ固有のクエリキー注意モデルを提案する。 学習されたクエリは、アクションの知識の特徴を抽象レベルで含むだけでなく、この知識を対象のビデオシナリオに適合させる能力も備えており、時間次元に沿って対応するアクションの存在を検出するために使用される。 これらのアクションカテゴリクエリをよりよく学習するために,従来の入力ビデオの特徴だけでなく,クエリ類似性を損なう新しいビデオ固有のアクションカテゴリクエリ学習者を通じて,異なるビデオ間の相関性を利用する。 最後に,一般的に使用される3つのデータセット(thumos14, activitynet1.2, activitynet1.3)について広範な実験を行い,最先端のパフォーマンスを実現する。

Weakly-supervised temporal action localization aims to identify and localize the action instances in the untrimmed videos with only video-level action labels. When humans watch videos, we can adapt our abstract-level knowledge about actions in different video scenarios and detect whether some actions are occurring. In this paper, we mimic how humans do and bring a new perspective for locating and identifying multiple actions in a video. We propose a network named VQK-Net with a video-specific query-key attention modeling that learns a unique query for each action category of each input video. The learned queries not only contain the actions' knowledge features at the abstract level but also have the ability to fit this knowledge into the target video scenario, and they will be used to detect the presence of the corresponding action along the temporal dimension. To better learn these action category queries, we exploit not only the features of the current input video but also the correlation between different videos through a novel video-specific action category query learner worked with a query similarity loss. Finally, we conduct extensive experiments on three commonly used datasets (THUMOS14, ActivityNet1.2, and ActivityNet1.3) and achieve state-of-the-art performance.
翻訳日:2023-12-27 22:57:52 公開日:2023-12-25
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v6 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Sijing Liu, Haozhe Chi, Xindi Hu, Kejuan Yue, Lei Li, Vicente Grau, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 様々な自然画像分割タスクで印象的な結果が得られた。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールのため、医療画像セグメンテーション(MIS)はより困難である。 SAMのパフォーマンスを医療データで完全に検証するために、53のオープンソースデータセットを収集して分類し、18のモダリティ、84のオブジェクト、125のオブジェクトとモダリティのペアターゲット、1050Kの2Dイメージ、6033Kマスクを備えた大規模な医療セグメンテーションデータセットを構築した。 いわゆるcosmos 1050kデータセット上で,様々なモデルと戦略を総合的に解析した。 主な知見は以下のとおりである。 1)SAMは特定の対象において顕著な性能を示したが,他の状況では不安定,不完全,あるいは完全に失敗した。 2) 大きなViT-Hを持つSAMは、小さなViT-Bよりも全体的な性能が良好であった。 3)SAMは,手動ヒント,特にボックスで,Everythモードよりも優れていた。 4)SAMは高いラベル付け品質と少ない時間で人間のアノテーションに役立つ。 5)SAMは中心点のランダム性や密箱のプロンプトに敏感であり,性能低下に悩まされる恐れがあった。 6)SAMは1点または数点の対話的手法よりも優れた性能を示したが,点数が増加するにつれて性能が向上する。 7)SAMの性能は,境界複雑性や強度差など,異なる要因と相関していた。 8)特定の医療タスクにおけるSAMの微細化は,平均DICE性能を4.39%,ViT-BとViT-Hの6.68%向上させる可能性がある。 この総合的なレポートは、研究者がMISにおけるSAMアプリケーションの可能性を探究し、SAMを適切に利用し開発する方法をガイドするのに役立つと期待している。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging because of the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. To fully validate SAM's performance on medical data, we collected and sorted 53 open-source datasets and built a large medical segmentation dataset with 18 modalities, 84 objects, 125 object-modality paired targets, 1050K 2D images, and 6033K masks. We comprehensively analyzed different models and strategies on the so-called COSMOS 1050K dataset. Our findings mainly include the following: 1) SAM showed remarkable performance in some specific objects but was unstable, imperfect, or even totally failed in other situations. 2) SAM with the large ViT-H showed better overall performance than that with the small ViT-B. 3) SAM performed better with manual hints, especially box, than the Everything mode. 4) SAM could help human annotation with high labeling quality and less time. 5) SAM was sensitive to the randomness in the center point and tight box prompts, and may suffer from a serious performance drop. 6) SAM performed better than interactive methods with one or a few points, but will be outpaced as the number of points increases. 7) SAM's performance correlated to different factors, including boundary complexity, intensity differences, etc. 8) Finetuning the SAM on specific medical tasks could improve its average DICE performance by 4.39% and 6.68% for ViT-B and ViT-H, respectively. We hope that this comprehensive report can help researchers explore the potential of SAM applications in MIS, and guide how to appropriately use and develop SAM.
翻訳日:2023-12-27 22:56:02 公開日:2023-12-25
# 硬質コアbose-hubbard格子のエネルギースペクトルの絡み合いの検出

Probing entanglement across the energy spectrum of a hard-core Bose-Hubbard lattice ( http://arxiv.org/abs/2306.02571v4 )

ライセンス: Link先を確認
Amir H. Karamlou, Ilan T. Rosen, Sarah E. Muschinske, Cora N. Barrett, Agustin Di Paolo, Leon Ding, Patrick M. Harrington, Max Hays, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Simon Gustavsson, Yariv Yanay, Jeffrey A. Grover, and William D. Oliver(参考訳) 絡み合いとその伝播は、量子系の様々な物理的性質を理解する中心である。 特に閉量子多体系では、絡み合いは創発的な熱力学的挙動をもたらすと考えられている。 しかし、多くの大規模量子システムの非可積分性と計算の難解性のために、普遍的な理解は依然として困難である。 量子ハードウェアプラットフォームは、相互作用する多体システムにおける絡み合いの形成とスケーリングを研究する手段を提供する。 ここでは、制御可能な4 \times 4$の超伝導量子ビット配列を用いて、2次元ハードコアボース・ハバード格子をエミュレートする。 我々は、全ての格子サイトを同時に駆動して重畳状態を生成し、その多体エネルギースペクトルの相関長と絡み合いエントロピーを抽出する。 スペクトルの中心にある状態の体積則絡み合いスケーリングと、その辺付近での面積則スケーリングの開始へのクロスオーバーを観察した。

Entanglement and its propagation are central to understanding a multitude of physical properties of quantum systems. Notably, within closed quantum many-body systems, entanglement is believed to yield emergent thermodynamic behavior. However, a universal understanding remains challenging due to the non-integrability and computational intractability of most large-scale quantum systems. Quantum hardware platforms provide a means to study the formation and scaling of entanglement in interacting many-body systems. Here, we use a controllable $4 \times 4$ array of superconducting qubits to emulate a two-dimensional hard-core Bose-Hubbard lattice. We generate superposition states by simultaneously driving all lattice sites and extract correlation lengths and entanglement entropy across its many-body energy spectrum. We observe volume-law entanglement scaling for states at the center of the spectrum and a crossover to the onset of area-law scaling near its edges.
翻訳日:2023-12-27 22:47:03 公開日:2023-12-25
# ポリディフューズ:ガイド付き集合拡散モデルによる多角形状再構成

PolyDiffuse: Polygonal Shape Reconstruction via Guided Set Diffusion Models ( http://arxiv.org/abs/2306.01461v2 )

ライセンス: Link先を確認
Jiacheng Chen, Ruizhi Deng, Yasutaka Furukawa(参考訳) 本稿では,視覚センサデータを拡散モデル(dm)を用いて多角形に変換する新しい構造化再構成アルゴリズムであるpolydiffuseを提案する。 構造復元の課題は2つの基本課題である。 1)構造化幾何は ``set'''(例えば、フロアプラン幾何の多角形の集合)であり、ここでは$n$要素のサンプルは$n! 異なるが同等の表現であり、発音が極めて曖昧である。 2) `reconstruction'タスクは単一のソリューションを持ち、初期ノイズは慎重に選択する必要があるが、初期ノイズは生成タスクで機能する。 我々の技術的貢献は、ガイドセット拡散モデルの導入である。 1)前方拡散プロセスは、サンプルの1つの表現が他の置換変種と区別されるようにノイズ注入を制御するための誘導網を学習し、あいまいさを解消する。 2) 逆復調処理は、センサデータに基づく条件生成プロセスとして、誘導網によって初期化および誘導される多角形を再構成する。 我々は,多角形集合としてのフロアプランと,一組のポリラインとしての自律走行車用HDマップの2種類の多角形形状を再構築するためのアプローチを評価した。 標準ベンチマークに関する広範囲な実験を通じて、ポリディフュースが現在の技術を大きく進歩させ、より広範な実用的応用を可能にすることを実証する。

This paper presents PolyDiffuse, a novel structured reconstruction algorithm that transforms visual sensor data into polygonal shapes with Diffusion Models (DM), an emerging machinery amid exploding generative AI, while formulating reconstruction as a generation process conditioned on sensor data. The task of structured reconstruction poses two fundamental challenges to DM: 1) A structured geometry is a ``set'' (e.g., a set of polygons for a floorplan geometry), where a sample of $N$ elements has $N!$ different but equivalent representations, making the denoising highly ambiguous; and 2) A ``reconstruction'' task has a single solution, where an initial noise needs to be chosen carefully, while any initial noise works for a generation task. Our technical contribution is the introduction of a Guided Set Diffusion Model where 1) the forward diffusion process learns guidance networks to control noise injection so that one representation of a sample remains distinct from its other permutation variants, thus resolving denoising ambiguity; and 2) the reverse denoising process reconstructs polygonal shapes, initialized and directed by the guidance networks, as a conditional generation process subject to the sensor data. We have evaluated our approach for reconstructing two types of polygonal shapes: floorplan as a set of polygons and HD map for autonomous cars as a set of polylines. Through extensive experiments on standard benchmarks, we demonstrate that PolyDiffuse significantly advances the current state of the art and enables broader practical applications.
翻訳日:2023-12-27 22:45:56 公開日:2023-12-25
# 二次バンドのサンプル複雑性:ヘッセン依存境界と最適アルゴリズム

Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and Optimal Algorithms ( http://arxiv.org/abs/2306.12383v3 )

ライセンス: Link先を確認
Qian Yu, Yining Wang, Baihe Huang, Qi Lei, Jason D. Lee(参考訳) 確率的ゼロ次最適化において、実用的妥当性の問題は、対象関数の局所幾何を完全に活用する方法を理解することである。 目的関数が二次的となる基本的な設定を考察し、最適なヘッセン依存サンプルの複雑性を初めて厳密に評価する。 私たちの貢献は2倍です。 まず,情報理論的な観点から,探索アルゴリズムと対象関数の幾何との相互作用を捉えたエネルギー割当という概念を導入することで,ヘッセン依存複素性に対する厳密な下界を証明した。 最適エネルギースペクトルを解くことにより、一致する上界を得る。 そして,アルゴリズムにより,全ヘッセンインスタンスの漸近的最適サンプル複雑性を普遍的に達成するヘッセン独立アルゴリズムの存在を示す。 提案アルゴリズムは, トランケーション法により実現された重み付き雑音分布に対して, 最適なサンプル複素量を示す。

In stochastic zeroth-order optimization, a problem of practical relevance is understanding how to fully exploit the local geometry of the underlying objective function. We consider a fundamental setting in which the objective function is quadratic, and provide the first tight characterization of the optimal Hessian-dependent sample complexity. Our contribution is twofold. First, from an information-theoretic point of view, we prove tight lower bounds on Hessian-dependent complexities by introducing a concept called energy allocation, which captures the interaction between the searching algorithm and the geometry of objective functions. A matching upper bound is obtained by solving the optimal energy spectrum. Then, algorithmically, we show the existence of a Hessian-independent algorithm that universally achieves the asymptotic optimal sample complexities for all Hessian instances. The optimal sample complexities achieved by our algorithm remain valid for heavy-tailed noise distributions, which are enabled by a truncation method.
翻訳日:2023-12-27 22:33:44 公開日:2023-12-25
# GenPose:拡散モデルによる生成カテゴリレベルのオブジェクトポス推定

GenPose: Generative Category-level Object Pose Estimation via Diffusion Models ( http://arxiv.org/abs/2306.10531v3 )

ライセンス: Link先を確認
Jiyao Zhang, Mingdong Wu and Hao Dong(参考訳) オブジェクトのポーズ推定は、AIとコンピュータビジョンの具体化において重要な役割を果たす。 カテゴリーレベルのポーズ推定の実用性にもかかわらず、現在のアプローチは、マルチハイポテーゼ問題として知られる部分的観測点雲の課題に遭遇する。 本研究では,カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討し,従来のポイント・ツー・ポイント回帰から外れた新しい解を提案する。 スコアベース拡散モデルを利用して、拡散モデルから候補をサンプリングし、2段階のプロセスでそれらを集約することによりオブジェクトのポーズを推定する。 確率を推定する際のコストのかかる統合プロセスを回避するため,従来のスコアベースモデルからエネルギーベースモデルを訓練し,エンドツーエンドの推定を可能にする方法を提案する。 提案手法は, 厳密な5d2cmおよび5d5cmで50%, 60%以上の精度でREAL275データセット上での最先端性能を実現する。 さらに,本手法は,類似の対称特性を微調整せずに共有する新しいカテゴリに対して高い一般化性を示し,オブジェクトポーズ追跡タスクに容易に適応でき,現在の最先端ベースラインに匹敵する結果が得られることを示した。

Object pose estimation plays a vital role in embodied AI and computer vision, enabling intelligent agents to comprehend and interact with their surroundings. Despite the practicality of category-level pose estimation, current approaches encounter challenges with partially observed point clouds, known as the multihypothesis issue. In this study, we propose a novel solution by reframing categorylevel object pose estimation as conditional generative modeling, departing from traditional point-to-point regression. Leveraging score-based diffusion models, we estimate object poses by sampling candidates from the diffusion model and aggregating them through a two-step process: filtering out outliers via likelihood estimation and subsequently mean-pooling the remaining candidates. To avoid the costly integration process when estimating the likelihood, we introduce an alternative method that trains an energy-based model from the original score-based model, enabling end-to-end likelihood estimation. Our approach achieves state-of-the-art performance on the REAL275 dataset, surpassing 50% and 60% on strict 5d2cm and 5d5cm metrics, respectively. Furthermore, our method demonstrates strong generalizability to novel categories sharing similar symmetric properties without fine-tuning and can readily adapt to object pose tracking tasks, yielding comparable results to the current state-of-the-art baselines.
翻訳日:2023-12-27 22:32:52 公開日:2023-12-25
# d3l: 2次元関節から3次元関節への3次元回転とリフトの分解によるメッシュの回復

D3L: Decomposition of 3D Rotation and Lift from 2D Joint to 3D for Human Mesh Recovery ( http://arxiv.org/abs/2306.06406v2 )

ライセンス: Link先を確認
Xiaoyang Hao (1 and 2), Han Li (1), Jun Cheng (2), Lei Wang (2) ((1) Southern University of Science and Technology, (2) Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)(参考訳) 3次元メッシュ復元のための既存の方法は、常に関節回転と形状パラメータの両方を含むSMPLパラメータを直接推定する。 しかし, これらの手法では, 回転意味の曖昧さ, 回転誤差の蓄積, 形状推定過度に適合し, 推定ポーズの誤差も生じる。 さらに、これらの手法は、他のホットトピックである人間のポーズ推定の進歩を効果的に活用していない。 これらの課題に対処するために,2次元関節から3次元メッシュ(D3L)への3次元回転とリフトの分解という新しいアプローチを提案する。 我々は3次元関節回転を骨方向と骨ねじり方向に切り離して、人間のメッシュ回復タスクを、独立して扱うことができるポーズ、ツイスト、形状の推定に分解する。 そして、2次元関節位置列からねじれ方向と3次元関節位置を推定する2次元から3次元リフトネットワークを設計し、形状パラメータと骨方向を適合させる非線形最適化手法を提案する。 提案手法は,人間のポーズ推定手法を活用でき,形状推定によるポーズ誤りを回避できる。 我々はHuman3.6Mデータセット上で実験を行い、既存の手法と比較して大きなマージンで性能を向上したことを示す。

Existing methods for 3D human mesh recovery always directly estimate SMPL parameters, which involve both joint rotations and shape parameters. However, these methods present rotation semantic ambiguity, rotation error accumulation, and shape estimation overfitting, which also leads to errors in the estimated pose. Additionally, these methods have not efficiently leveraged the advancements in another hot topic, human pose estimation. To address these issues, we propose a novel approach, Decomposition of 3D Rotation and Lift from 2D Joint to 3D mesh (D3L). We disentangle 3D joint rotation into bone direction and bone twist direction so that the human mesh recovery task is broken down into estimation of pose, twist, and shape, which can be handled independently. Then we design a 2D-to-3D lifting network for estimating twist direction and 3D joint position from 2D joint position sequences and introduce a nonlinear optimization method for fitting shape parameters and bone directions. Our approach can leverage human pose estimation methods, and avoid pose errors introduced by shape estimation overfitting. We conduct experiments on the Human3.6M dataset and demonstrate improved performance compared to existing methods by a large margin.
翻訳日:2023-12-27 22:32:00 公開日:2023-12-25
# EnrichEvent: イベント抽出の進化のためのコンテキスト情報によるソーシャルデータ強化

EnrichEvent: Enriching Social Data with Contextual Information for Emerging Event Extraction ( http://arxiv.org/abs/2307.16082v3 )

ライセンス: Link先を確認
Mohammadali Sefidi Esfahani, Mohammad Akbari(参考訳) ソーシャルプラットフォームは、情報を広め、実際のソーシャルイベントについて議論するための重要なプラットフォームとして登場し、研究者が新しいイベント検出フレームワークを設計し実装する素晴らしい機会を提供します。 しかし、既存のアプローチのほとんどは、キーワードバーストネスやネットワーク構造を利用して特定されていないイベントを検出する。 そのため、イベントや社会データの困難な性質に関する未知の事象を特定するのに役立つことが多い。 社会データ(例えばツイート)は、ミススペル、不完全性、単語認識の曖昧さ、不規則な言語、意見の側面の変化によって特徴づけられる。 さらに,限られた構造知識を生かしてイベントを進化させる識別的特徴やパターンを抽出することは不可能である。 本稿では,これらの課題に対処するために,ストリーミングソーシャルデータの言語的および文脈的表現を活用する新しいフレームワークであるEnrichEventを提案する。 特に,文脈的および言語的知識を活用して意味的関連のあるツイートを検出し,イベント検出手法の有効性を高める。 最終的に、提案フレームワークは各イベントに対してクラスタチェーンを生成し、時間を通じてイベントの変動を示す。 社会イベントの検出と識別において,そのハイパフォーマンスと有効性を検証するため,フレームワークを評価するために広範な実験を行った。

Social platforms have emerged as crucial platforms for disseminating information and discussing real-life social events, offering researchers an excellent opportunity to design and implement novel event detection frameworks. However, most existing approaches only exploit keyword burstiness or network structures to detect unspecified events. Thus, they often need help identifying unknown events regarding the challenging nature of events and social data. Social data, e.g., tweets, is characterized by misspellings, incompleteness, word sense ambiguation, irregular language, and variation in aspects of opinions. Moreover, extracting discriminative features and patterns for evolving events by exploiting the limited structural knowledge is almost infeasible. To address these challenges, in this paper, we propose a novel framework, namely EnrichEvent, that leverages the linguistic and contextual representations of streaming social data. In particular, we leverage contextual and linguistic knowledge to detect semantically related tweets and enhance the effectiveness of the event detection approaches. Eventually, our proposed framework produces cluster chains for each event to show the evolving variation of the event through time. We conducted extensive experiments to evaluate our framework, validating its high performance and effectiveness in detecting and distinguishing unspecified social events.
翻訳日:2023-12-27 22:23:03 公開日:2023-12-25
# 教育における人間とaiのハイブリッドエッセイのための境界の自動検出

Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education ( http://arxiv.org/abs/2307.12267v6 )

ライセンス: Link先を確認
Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 最近の大規模言語モデル(llm)、例えばchatgptは、特定の指示が提供されたときに、人間的かつ流動的な応答を生成することができる。 技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLSMを活用して執筆の課題を完了し、それらを元の作業として引き渡すのではないかと懸念している。 このような懸念から、多くのAIコンテンツ検出研究が実施されているが、これらの先行研究の多くは、テキストが完全に人間書きであるか、完全にAI生成であると仮定して、AIコンテンツ検出を分類問題としてモデル化した。 本研究では,人間と生成的LLM(ハイブリッドテキスト)が共同で検出対象のテキストを書けるような,希少かつ現実的な環境下でのAIコンテンツ検出について検討した。 まず,対象とするハイブリッドテキスト(境界検出)から人書きコンテンツとAI生成コンテンツ間の遷移点を特定することを目的とした。 そこで我々は,(1)エンコーダ訓練中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案し,(2)隣り合う2つのプロトタイプ間の距離を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。 Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.

The recent large language models (LLMs), e.g., ChatGPT, have been able to generate human-like and fluent responses when provided with specific instructions. While admitting the convenience brought by technological advancement, educators also have concerns that students might leverage LLMs to complete their writing assignments and pass them off as their original work. Although many AI content detection studies have been conducted as a result of such concerns, most of these prior studies modeled AI content detection as a classification problem, assuming that a text is either entirely human-written or entirely AI-generated. In this study, we investigated AI content detection in a rarely explored yet realistic setting where the text to be detected is collaboratively written by human and generative LLMs (i.e., hybrid text). We first formalized the detection task as identifying the transition points between human-written content and AI-generated content from a given hybrid text (boundary detection). Then we proposed a two-step approach where we (1) separated AI-generated content from human-written content during the encoder training process; and (2) calculated the distances between every two adjacent prototypes and assumed that the boundaries exist between the two adjacent prototypes that have the furthest distance from each other. Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
翻訳日:2023-12-27 22:22:30 公開日:2023-12-25
# 投票に基づくマルチモーダル自動デセプション検出

Voting-based Multimodal Automatic Deception Detection ( http://arxiv.org/abs/2307.07516v2 )

ライセンス: Link先を確認
Lana Touma and Mohammad Al Horani and Manar Tailouni and Anas Dahabiah and Khloud Al Jallad(参考訳) 自動偽証検出は長い間ホットな研究トピックであり、機械学習とディープラーニングを使って偽証を自動的に検出し、この古い分野に新たな光をもたらす。 本稿では,音声,視覚的,語彙的特徴を用いたビデオからの自動偽造検出のための投票方式を提案する。 ミシガン大学のリアルライフトライアルデータセットとマイアミ大学の偽装検出データセットの2つのデータセットで実験が行われた。 ビデオサンプルは、画像、オーディオ、原稿のフレームに分割された。 我々の投票に基づくマルチモーダル・ソリューションは3つのモデルからなる。 第1のモデルは画像から詐欺を検出するCNNであり、第2のモデルはMelスペクトログラム上のサポートベクトルマシン(SVM)であり、第3のモデルは原稿からの詐欺を検出するWord2Vec on Support Vector Machine(SVM)である。 我々の提案する解法は芸術の状態を上回っている。 画像,音声,テキストで得られた最良の結果は,実生活試験データセットで97%,96%,97%,82%,動画,音声,テキストで73%であった。

Automatic Deception Detection has been a hot research topic for a long time, using machine learning and deep learning to automatically detect deception, brings new light to this old field. In this paper, we proposed a voting-based method for automatic deception detection from videos using audio, visual and lexical features. Experiments were done on two datasets, the Real-life trial dataset by Michigan University and the Miami University deception detection dataset. Video samples were split into frames of images, audio, and manuscripts. Our Voting-based Multimodal proposed solution consists of three models. The first model is CNN for detecting deception from images, the second model is Support Vector Machine (SVM) on Mel spectrograms for detecting deception from audio and the third model is Word2Vec on Support Vector Machine (SVM) for detecting deception from manuscripts. Our proposed solution outperforms state of the art. Best results achieved on images, audio and text were 97%, 96%, 92% respectively on Real-Life Trial Dataset, and 97%, 82%, 73% on video, audio and text respectively on Miami University Deception Detection.
翻訳日:2023-12-27 22:21:15 公開日:2023-12-25
# proxycap:人間中心のproxy-to-motion learningによる世界空間でのリアルタイムモノキュラーフルボディキャプチャ

ProxyCap: Real-time Monocular Full-body Capture in World Space via Human-Centric Proxy-to-Motion Learning ( http://arxiv.org/abs/2307.01200v3 )

ライセンス: Link先を確認
Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Jiajun Zhang, Hongwei Yi, Shengping Zhang, Yebin Liu(参考訳) モノクルモーションキャプチャーに対する学習ベースのアプローチは、最近データ駆動方式で回帰学習することで有望な結果を示している。 しかし、データ収集とネットワーク設計の課題のため、既存のソリューションが世界規模で正確でありながら、リアルタイムのフルボディキャプチャを実現することは依然として困難である。 本研究では,2次元骨格列と3次元回転運動のプロキシデータセットから世界空間の動きを学習する,人間中心のプロキシ・ツー・モーション学習スキームであるProxyCapを紹介する。 このようなプロキシデータにより,世界空間の正確な監視を行うとともに,一般化問題を緩和する学習ネットワークを構築することができる。 宇宙空間におけるより正確で物理的に可能な予測のために、我々のネットワークは人間中心の視点から人間の動きを学習するように設計されている。 さらに,我々のネットワーク上では,接触認識型神経運動降下モジュールが提案されている。 提案した学習ベースソリューションを用いて,手持ちの移動カメラを用いても,世界空間での足場接触が可能な実時間単眼フルボディキャプチャシステムを実演した。 プロジェクトページはhttps://zhangyux15.github.io/proxycapv2です。

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we introduce ProxyCap, a human-centric proxy-to-motion learning scheme to learn world-space motions from a proxy dataset of 2D skeleton sequences and 3D rotational motions. Such proxy data enables us to build a learning-based network with accurate world-space supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions in world space, our network is designed to learn human motions from a human-centric perspective, which enables the understanding of the same motion captured with different camera trajectories. Moreover, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space even using hand-held moving cameras. Our project page is https://zhangyux15.github.io/ProxyCapV2.
翻訳日:2023-12-27 22:18:28 公開日:2023-12-25
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v7 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,画素間対応が与えられたテキストプロンプト(例えば,パノラマからの視点作物や深度マップやポーズが与えられたマルチビュー画像など)から一貫したマルチビュー画像を生成する,単純かつ効果的な手法であるmvdiffusionを提案する。 反復的な画像ワープや塗装に依存する従来の方法とは異なり、MVDiffusionはグローバルな認識で全ての画像を同時に生成する。 MVDiffusionのコアとなるのは、事前訓練されたテキスト-画像拡散モデルと平行に視点画像を処理し、新しい対応対応型アテンション層を統合して、クロスビューインタラクションを容易にすることである。 パノラマ生成では、10kパノラマでしか訓練されていないが、MVDiffusionは任意のテキストに対して高解像度のフォトリアリスティック画像を生成することができる。 多視点深度画像生成では、MVDiffusionはシーンメッシュのテクスチャ化のための最先端性能を示す。

This paper introduces MVDiffusion, a simple yet effective method for generating consistent multi-view images from text prompts given pixel-to-pixel correspondences (e.g., perspective crops from a panorama or multi-view images given depth maps and poses). Unlike prior methods that rely on iterative image warping and inpainting, MVDiffusion simultaneously generates all images with a global awareness, effectively addressing the prevalent error accumulation issue. At its core, MVDiffusion processes perspective images in parallel with a pre-trained text-to-image diffusion model, while integrating novel correspondence-aware attention layers to facilitate cross-view interactions. For panorama generation, while only trained with 10k panoramas, MVDiffusion is able to generate high-resolution photorealistic images for arbitrary texts or extrapolate one perspective image to a 360-degree view. For multi-view depth-to-image generation, MVDiffusion demonstrates state-of-the-art performance for texturing a scene mesh.
翻訳日:2023-12-27 22:18:06 公開日:2023-12-25
# 量子鍵分布におけるカスケードの利用

Using Cascade in Quantum Key Distribution ( http://arxiv.org/abs/2307.00576v2 )

ライセンス: Link先を確認
Devashish Tupkary, Norbert L\"utkenhaus(参考訳) 本稿では,2方向誤り訂正プロトコルカスケードを用いた量子鍵分配(QKD)プロトコルの解析における重大な欠陥を指摘する。 具体的には、この欠陥はカスケードプロトコルの期間中に発生する双方向通信の完全な考慮から来ている。 我々は,この欠陥に対処し,有効な鍵レートを生成する,単純でエレガントなアプローチを提案する。 我々は、Qubit BB84およびDecoy-State BB84プロトコルにおいて、キーレートと古い不正なアプローチを用いて生成された手法を比較して、新しいアプローチを例示する。 多くの現実的な状況において、我々の修正されたアプローチは、古い、誤ったアプローチと同じ鍵レートを生み出す。 しかし,他のシナリオでは,カスケード中の双方向通信を適切に考慮することの重要性が強調され,有効な鍵レートが低下する。

We point out a critical flaw in the analysis of Quantum Key Distribution (QKD) protocols that employ the two-way error correction protocol Cascade. Specifically, this flaw stems from an incom-plete consideration of all two-way communication that occurs during the Cascade protocol. We present a straightforward and elegant alternative approach that addresses this flaw and produces valid key rates. We exemplify our new approach by comparing its key rates with those generated using older, incorrect approaches, for Qubit BB84 and Decoy-State BB84 protocols. We show that in many practically relevant situations, our rectified approach produces the same key rate as older, incorrect approaches. However, in other scenarios, our approach produces valid key rates that are lower, highlighting the importance of properly accounting for all two-way communication during Cascade.
翻訳日:2023-12-27 22:17:46 公開日:2023-12-25
# 単語だけでなく意味を翻訳する:言語モデルによる慣用翻訳の最適化におけるイディオムkbの役割

Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing Idiomatic Translation with Language Models ( http://arxiv.org/abs/2308.13961v2 )

ライセンス: Link先を確認
Shuang Li, Jiangjie Chen, Siyu Yuan, Xinyi Wu, Hao Yang, Shimin Tao, Yanghua Xiao(参考訳) 機械翻訳(MT)システムと汎用言語モデル(LM)をうまく翻訳するには、ソースおよびターゲット言語と文化の両方を深く理解する必要がある。 それゆえ、イディオムは非コンポジション的性質を持ち、リテラル翻訳はしばしば意図された意味を欠くため、トランスフォーマーベースのシステムにおいて特別な課題を提起する。 既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。 これらの課題に対処するため、我々はコンテキスト認識とスケーラビリティを優先し、管理可能なkbサイズでのイディオムのオフラインストレージを可能にする。 これにより、より小さなモデルで効率的なサービスを提供し、慣用的な表現をより包括的に理解することができる。 大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。 このKBは、BLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する。 本稿では,新しいgpt-4を用いた評価指標を提案し,イディオムkbがモデル性能を大幅に向上させることを示す。 人間の評価はKBの品質をさらに検証します。

To translate well, machine translation (MT) systems and general-purposed language models (LMs) need a deep understanding of both source and target languages and cultures. Therefore, idioms, with their non-compositional nature, pose particular challenges for Transformer-based systems, as literal translations often miss the intended meaning. Traditional methods, which replace idioms using existing knowledge bases (KBs), often lack scale and context awareness. Addressing these challenges, our approach prioritizes context awareness and scalability, allowing for offline storage of idioms in a manageable KB size. This ensures efficient serving with smaller models and provides a more comprehensive understanding of idiomatic expressions. We introduce a multilingual idiom KB (IdiomKB) developed using large LMs to address this. This KB facilitates better translation by smaller models, such as BLOOMZ (7.1B), Alpaca (7B), and InstructGPT (6.7B), by retrieving idioms' figurative meanings. We present a novel, GPT-4-powered metric for human-aligned evaluation, demonstrating that IdiomKB considerably boosts model performance. Human evaluations further validate our KB's quality.
翻訳日:2023-12-27 22:11:15 公開日:2023-12-25
# 変形可能な物体の密対応による暗黙の形状表現の自己教師あり学習

Self-supervised Learning of Implicit Shape Representation with Dense Correspondence for Deformable Objects ( http://arxiv.org/abs/2308.12590v2 )

ライセンス: Link先を確認
Baowen Zhang, Jiahe Li, Xiaoming Deng, Yinda Zhang, Cuixia Ma, Hongan Wang(参考訳) 変形可能な物体の高密度対応による3次元形状表現の学習は、コンピュータビジョンの基本的な問題である。 既存のアプローチでは、例えば、人間の体や動物に対する骨格のポーズのような特定の意味領域のアノテーションが必要であり、追加のアノテーションの努力を必要とし、エラーの蓄積に苦しむ。 本稿では, 変形可能な物体に対するニューラルな暗黙的形状表現を学習し, テンプレート形状と高密度対応を3次元で表現できる, 自己教師型手法を提案する。 本手法は, 骨格と皮膚の重量の先行を必要とせず, 符号付き距離場で表現される形状の収集のみを必要とする。 この大きな変形に対処するために,学習したテンプレート形状をトレーニング形状と同一の潜在空間に拘束し,局所領域の剛性変換を強制し局所反射問題に対処する局所剛性制約の新しい定式化をデザインし,テンプレート形状と対応の合同学習による曖昧さを低減するための新しい階層的剛性制約を提案する。 広範な実験により, 模型は大きな変形を伴う形状を表現できることがわかった。 また,我々の形状表現は,テクスチャ転送と形状編集という2つの典型的な応用を競合性能でサポートできることを示した。 コードとモデルはhttps://iscas3dv.github.io/deformshapeで入手できる。

Learning 3D shape representation with dense correspondence for deformable objects is a fundamental problem in computer vision. Existing approaches often need additional annotations of specific semantic domain, e.g., skeleton poses for human bodies or animals, which require extra annotation effort and suffer from error accumulation, and they are limited to specific domain. In this paper, we propose a novel self-supervised approach to learn neural implicit shape representation for deformable objects, which can represent shapes with a template shape and dense correspondence in 3D. Our method does not require the priors of skeleton and skinning weight, and only requires a collection of shapes represented in signed distance fields. To handle the large deformation, we constrain the learned template shape in the same latent space with the training shapes, design a new formulation of local rigid constraint that enforces rigid transformation in local region and addresses local reflection issue, and present a new hierarchical rigid constraint to reduce the ambiguity due to the joint learning of template shape and correspondences. Extensive experiments show that our model can represent shapes with large deformations. We also show that our shape representation can support two typical applications, such as texture transfer and shape editing, with competitive performance. The code and models are available at https://iscas3dv.github.io/deformshape
翻訳日:2023-12-27 22:09:46 公開日:2023-12-25
# 多文書質問応答のための知識グラフプロンプト

Knowledge Graph Prompting for Multi-Document Question Answering ( http://arxiv.org/abs/2308.11730v3 )

ライセンス: Link先を確認
Yu Wang, Nedim Lipka, Ryan A. Rossi, Alexa Siu, Ruiyi Zhang, Tyler Derr(参考訳) 大規模言語モデル(LLM)の'pre-train, prompt, predict'パラダイムは,オープンドメイン質問応答(OD-QA)において顕著な成功を収めた。 しかし、多文書質問応答(MD-QA)のシナリオにおいて、異なる文書の内容と構造間の論理的関連を徹底的に理解するタスクにおいて、このパラダイムを探求する研究はほとんどない。 この重要なギャップを埋めるために,我々は,グラフ構築モジュールとグラフトラバーサルモジュールからなるMD-QA用LLMの適切なコンテキストを定式化するための知識グラフプロンプト法(KGP)を提案する。 グラフ構築のために、複数の文書に、通路や文書構造(例えば、ページ/テーブル)を象徴するノードと、通路や文書内構造関係間の意味的・語彙的類似性を表すエッジを持つ知識グラフ(KG)を作成する。 グラフトラバーサルでは,ノードを横断するグラフトラバーサルエージェントを設計し,MD-QA で LLM を支援する支援通路を収集する。 構築されたグラフは、通路間の遷移空間を規制し、検索遅延を減少させる大域的定規として機能する。 同時に、グラフトラバーサルエージェントは、関連するコンテキストを収集し、質問に徐々にアプローチし、検索品質を保証するローカルナビゲータとして機能する。 MD-QAに対するKGPの有効性は、LLMの迅速な設計を強化するためにグラフを活用する可能性を示している。 コード:https://github.com/YuWVandy/KG-LLM-MDQA。

The `pre-train, prompt, predict' paradigm of large language models (LLMs) has achieved remarkable success in open-domain question answering (OD-QA). However, few works explore this paradigm in the scenario of multi-document question answering (MD-QA), a task demanding a thorough understanding of the logical associations among the contents and structures of different documents. To fill this crucial gap, we propose a Knowledge Graph Prompting (KGP) method to formulate the right context in prompting LLMs for MD-QA, which consists of a graph construction module and a graph traversal module. For graph construction, we create a knowledge graph (KG) over multiple documents with nodes symbolizing passages or document structures (e.g., pages/tables), and edges denoting the semantic/lexical similarity between passages or intra-document structural relations. For graph traversal, we design an LLM-based graph traversal agent that navigates across nodes and gathers supporting passages assisting LLMs in MD-QA. The constructed graph serves as the global ruler that regulates the transitional space among passages and reduces retrieval latency. Concurrently, the graph traversal agent acts as a local navigator that gathers pertinent context to progressively approach the question and guarantee retrieval quality. Extensive experiments underscore the efficacy of KGP for MD-QA, signifying the potential of leveraging graphs in enhancing the prompt design for LLMs. Our code: https://github.com/YuWVandy/KG-LLM-MDQA.
翻訳日:2023-12-27 22:09:20 公開日:2023-12-25
# GPTScan: GPTとプログラム分析を組み合わせたスマートコントラクトにおける論理脆弱性の検出

GPTScan: Detecting Logic Vulnerabilities in Smart Contracts by Combining GPT with Program Analysis ( http://arxiv.org/abs/2308.03314v2 )

ライセンス: Link先を確認
Yuqiang Sun, Daoyuan Wu, Yue Xue, Han Liu, Haijun Wang, Zhengzi Xu, Xiaofei Xie, Yang Liu(参考訳) スマートコントラクトはさまざまな脆弱性が発生しやすいため、時間とともに大きな損失を被ります。 現在の分析ツールは、主に、固定されたコントロールや再エントレランスや整数オーバーフローといったデータフローパターンによる脆弱性をターゲットにしている。 しかし、Web3セキュリティバグに関する最近の調査では、ドメイン固有のプロパティ記述やチェックの欠如により、これらのバグの約80%が既存のツールで監査できないことが明らかになった。 LLM(Large Language Models)の最近の進歩を考えると、GPT(Generative Pre-training Transformer)がロジックの脆弱性の検出にどのように役立つかを検討する価値がある。 本稿では,gptと静的解析を組み合わせた初のスマートコントラクトロジック脆弱性検出ツールであるgptscanを提案する。 GPTの事前訓練された知識によって制限される脆弱性を識別するためにのみGPTに頼るのではなく、汎用的なコード理解ツールとしてGPTを利用する。 各ロジックの脆弱性タイプをシナリオとプロパティに分割することで、GPTScanは候補の脆弱性とGPTをマッチさせる。 GPTScanはさらに、GPTにキー変数とステートメントをインテリジェントに認識するよう指示し、静的確認によって検証する。 約400のコントラクトプロジェクトと3K Solidityファイルを持つ多様なデータセットの評価によると、GPTScanはトークンコントラクトの高精度(90%以上)と、Web3Bugsのような大規模プロジェクトの許容精度(57.14%)を達成する。 人間の監査官が見逃した9つの新たな脆弱性を含む70%以上のリコールで、地上の真実的ロジックの脆弱性を効果的に検出する。 GPTScanは高速で費用対効果があり、平均14.39秒と0.01 USDで1000行のSolidityコードをスキャンする。 さらに、静的な確認はGPTSが偽陽性の3分の2を減らすのに役立つ。

Smart contracts are prone to various vulnerabilities, leading to substantial financial losses over time. Current analysis tools mainly target vulnerabilities with fixed control or data-flow patterns, such as re-entrancy and integer overflow. However, a recent study on Web3 security bugs revealed that about 80% of these bugs cannot be audited by existing tools due to the lack of domain-specific property description and checking. Given recent advances in Large Language Models (LLMs), it is worth exploring how Generative Pre-training Transformer (GPT) could aid in detecting logicc vulnerabilities. In this paper, we propose GPTScan, the first tool combining GPT with static analysis for smart contract logic vulnerability detection. Instead of relying solely on GPT to identify vulnerabilities, which can lead to high false positives and is limited by GPT's pre-trained knowledge, we utilize GPT as a versatile code understanding tool. By breaking down each logic vulnerability type into scenarios and properties, GPTScan matches candidate vulnerabilities with GPT. To enhance accuracy, GPTScan further instructs GPT to intelligently recognize key variables and statements, which are then validated by static confirmation. Evaluation on diverse datasets with around 400 contract projects and 3K Solidity files shows that GPTScan achieves high precision (over 90%) for token contracts and acceptable precision (57.14%) for large projects like Web3Bugs. It effectively detects ground-truth logic vulnerabilities with a recall of over 70%, including 9 new vulnerabilities missed by human auditors. GPTScan is fast and cost-effective, taking an average of 14.39 seconds and 0.01 USD to scan per thousand lines of Solidity code. Moreover, static confirmation helps GPTScan reduce two-thirds of false positives.
翻訳日:2023-12-27 22:06:25 公開日:2023-12-25
# インクリメンタル回転平均再訪

Incremental Rotation Averaging Revisited ( http://arxiv.org/abs/2309.16924v2 )

ライセンス: Link先を確認
Xiang Gao, Hainan Cui, Yangdong Liu, and Shuhan Shen(参考訳) インクリメンタルパラメータ推定に基づく回転平均化手法の精度とロバスト性をさらに向上するために,インクリメンタル回転平均化(IRA)ファミリーの新たなメンバーを導入し,IRAv4と呼ぶ。 最も重要な特徴として、タスク固有の連結支配集合がirav4から抽出され、より信頼性が高く正確なローテーション局所対グローバルアライメントの参照となる。 このアライメント基準は、同時に推定される頂点の絶対回転とともに漸進的に構成される。 1DSfMデータセットの総合評価を行い,本論文で提案した基準構成法と全回転平均化パイプラインの有効性を示した。

In order to further advance the accuracy and robustness of the incremental parameter estimation-based rotation averaging methods, in this paper, a new member of the Incremental Rotation Averaging (IRA) family is introduced, which is termed as IRAv4. As its most significant feature, a task-specific connected dominating set is extracted in IRAv4 to serve as a more reliable and accurate reference for rotation local-to-global alignment. This alignment reference is incrementally constructed, together with the absolute rotations of the vertices belong to it simultaneously estimated. Comprehensive evaluations are performed on the 1DSfM dataset, by which the effectiveness of both the reference construction method and the entire rotation averaging pipeline proposed in this paper is demonstrated.
翻訳日:2023-12-27 21:57:23 公開日:2023-12-25
# ベータ拡散

Beta Diffusion ( http://arxiv.org/abs/2309.07867v4 )

ライセンス: Link先を確認
Mingyuan Zhou and Tianqi Chen and Zhendong Wang and Huangjie Zheng(参考訳) 境界範囲内でデータを生成するためにデマスキングとデノージングを統合する,新しい生成モデリング手法であるbeta diffusionを導入する。 スケールされたベータ分布とシフトしたベータ分布を使用することで、ベータ拡散は時間とともに乗法的遷移を利用して前方および逆拡散プロセスの両方を作成し、任意の時点のデータから、前縁と逆条件の両方でベータ分布を維持する。 加法的ガウスノイズと再重み付き証拠下界(ELBO)に依存する従来の拡散ベース生成モデルとは異なり、ベータ拡散はKL分散の凸性に由来するKL分割上界(KLUB)と乗法的に最適化される。 提案するklubは負のelboよりもベータ拡散の最適化に有効であることを実証し,2つの引数を交換したkl分岐のklubとして導出できることを示した。 bregman divergenceで表されるβ拡散の損失関数は、最適化のためのklubsの有効性をさらに支持する。 合成データと自然画像の双方における実験結果は,レンジ境界データの生成モデルにおけるベータ拡散の特異性を示し,拡散モデルの最適化におけるklubsの有効性を検証する。

We introduce beta diffusion, a novel generative modeling method that integrates demasking and denoising to generate data within bounded ranges. Using scaled and shifted beta distributions, beta diffusion utilizes multiplicative transitions over time to create both forward and reverse diffusion processes, maintaining beta distributions in both the forward marginals and the reverse conditionals, given the data at any point in time. Unlike traditional diffusion-based generative models relying on additive Gaussian noise and reweighted evidence lower bounds (ELBOs), beta diffusion is multiplicative and optimized with KL-divergence upper bounds (KLUBs) derived from the convexity of the KL divergence. We demonstrate that the proposed KLUBs are more effective for optimizing beta diffusion compared to negative ELBOs, which can also be derived as the KLUBs of the same KL divergence with its two arguments swapped. The loss function of beta diffusion, expressed in terms of Bregman divergence, further supports the efficacy of KLUBs for optimization. Experimental results on both synthetic data and natural images demonstrate the unique capabilities of beta diffusion in generative modeling of range-bounded data and validate the effectiveness of KLUBs in optimizing diffusion models, thereby making them valuable additions to the family of diffusion-based generative models and the optimization techniques used to train them.
翻訳日:2023-12-27 21:54:33 公開日:2023-12-25
# ハイブリッド表現と正規強調を用いた細粒度情報を用いた屋内シーン再構成

Indoor Scene Reconstruction with Fine-Grained Details Using Hybrid Representation and Normal Prior Enhancement ( http://arxiv.org/abs/2309.07640v2 )

ライセンス: Link先を確認
Sheng Ye, Yubin Hu, Matthieu Lin, Yu-Hui Wen, Wang Zhao, Yong-Jin Liu, Wenping Wang(参考訳) 多視点rgb画像からの室内シーンの復元は,繊細で微細な領域と,平坦でテクスチャのない領域が共存していることから困難である。 近年の手法では、予測された表面正規化によって支援されたニューラルラジアンス場を利用してシーン形状を復元している。 これらの方法は、床と壁面の完全な滑らかな結果を生み出すのに優れている。 しかし、それらは不適切な神経表現と不正確に予測された正常な前兆のために高周波構造を持つ複雑な表面を捉えるのに苦労している。 本研究は, 上記の制限に対処して, 高忠実表面を細かな詳細で再構築することを目的とする。 暗黙の表現能力を向上させるために,低周波領域と高周波領域を別々に表現するハイブリッドアーキテクチャを提案する。 そこで本研究では,予測した面正規ベクトルの画素方向の不確かさを推定するネットワークと組み合わせることで,画像のシャープ化とノイズ除去を簡易かつ効果的に行う手法を提案する。 このような不確実性を特定することは、複雑なジオメトリの正確な再構築を妨げる信頼できない表面正常な監督によって、モデルが誤解されるのを防ぐ可能性がある。 評価実験の結果,提案手法は既存手法よりも再現性が高いことがわかった。 さらに,提案手法は,携帯端末が捉えた実世界の屋内シナリオにもよく適用できる。 私たちのコードは、https://github.com/yec22/Fine-Grained-Indoor-Reconで公開されています。

The reconstruction of indoor scenes from multi-view RGB images is challenging due to the coexistence of flat and texture-less regions alongside delicate and fine-grained regions. Recent methods leverage neural radiance fields aided by predicted surface normal priors to recover the scene geometry. These methods excel in producing complete and smooth results for floor and wall areas. However, they struggle to capture complex surfaces with high-frequency structures due to the inadequate neural representation and the inaccurately predicted normal priors. This work aims to reconstruct high-fidelity surfaces with fine-grained details by addressing the above limitations. To improve the capacity of the implicit representation, we propose a hybrid architecture to represent low-frequency and high-frequency regions separately. To enhance the normal priors, we introduce a simple yet effective image sharpening and denoising technique, coupled with a network that estimates the pixel-wise uncertainty of the predicted surface normal vectors. Identifying such uncertainty can prevent our model from being misled by unreliable surface normal supervisions that hinder the accurate reconstruction of intricate geometries. Experiments on the benchmark datasets show that our method outperforms existing methods in terms of reconstruction quality. Furthermore, the proposed method also generalizes well to real-world indoor scenarios captured by our hand-held mobile phones. Our code is publicly available at: https://github.com/yec22/Fine-Grained-Indoor-Recon.
翻訳日:2023-12-27 21:54:07 公開日:2023-12-25
# クロスドメイン・マイラルショットハイパースペクトル画像分類のための多レベル関係学習

Multi-level Relation Learning for Cross-domain Few-shot Hyperspectral Image Classification ( http://arxiv.org/abs/2311.01212v2 )

ライセンス: Link先を確認
Chun Liu, Longwei Yang, Zheng Li, Wei Yang, Zhigang Han, Jianzhong Guo, Junyong Yu(参考訳) クロスドメインの少数ショットハイパースペクトル画像分類では、ソースドメインから多数のラベル付きサンプルから事前知識を学習し、ターゲットドメインにラベル付きサンプルをほとんど含まないタスクにその知識を転送する。 メトリックベースの方法に従って、現在の多くのメソッドは、まずクエリとサポートサンプルの特徴を抽出し、その後、サポートサンプルやプロトタイプまでの距離に応じてクエリサンプルのクラスを直接予測する。 サンプル間の関係は十分に研究されておらず、利用されていない。 そこで本研究では, 異なるレベルのサンプル関係を学習し, モデル学習プロセスに取り入れ, ドメイン間数ショットのハイパースペクトル画像分類を改善することを提案する。 ドメインレベルの分布差に対処するドメイン識別器を応用した"Deep Cross-Domain Few-Shot Learning for Hyperspectral Image Classification"の現在の手法に基づいて、提案手法はクラスレベルのサンプル関係を学習し、より識別可能なサンプル特徴を得る。 さらに、トランスフォーマティブベースのクロスアテンション学習モジュールを採用し、セットレベルのサンプル関係を学習し、クエリサンプルから注意を引いてサンプルをサポートする。 実験結果から,多段階関係学習機構の多点超スペクトル画像分類への寄与をアート法との比較により実証した。

Cross-domain few-shot hyperspectral image classification focuses on learning prior knowledge from a large number of labeled samples from source domains and then transferring the knowledge to the tasks which contain few labeled samples in target domains. Following the metric-based manner, many current methods first extract the features of the query and support samples, and then directly predict the classes of query samples according to their distance to the support samples or prototypes. The relations between samples have not been fully explored and utilized. Different from current works, this paper proposes to learn sample relations on different levels and take them into the model learning process, to improve the cross-domain few-shot hyperspectral image classification. Building on current method of "Deep Cross-Domain Few-Shot Learning for Hyperspectral Image Classification" which adopts a domain discriminator to deal with domain-level distribution difference, the proposed method applies contrastive learning to learn the class-level sample relations to obtain more discriminable sample features. In addition, it adopts a transformer based cross-attention learning module to learn the set-level sample relations and acquire the attention from query samples to support samples. Our experimental results have demonstrated the contribution of the multi-level relation learning mechanism for few-shot hyperspectral image classification when compared with the state of the art methods.
翻訳日:2023-12-27 21:46:39 公開日:2023-12-25
# EHRXQA:胸部X線画像を用いた電子健康記録用マルチモーダル質問回答データセット

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images ( http://arxiv.org/abs/2310.18652v2 )

ライセンス: Link先を確認
Seongsu Bae, Daeun Kyung, Jaehee Ryu, Eunbyeol Cho, Gyubok Lee, Sunjun Kweon, Jungwoo Oh, Lei Ji, Eric I-Chao Chang, Tackeun Kim, Edward Choi(参考訳) 電子健康記録(ehrs)は、様々なマルチモーダル形式で患者の医療履歴を含んでいるが、現在のehr質問応答(qa)システムにおいて、画像とテーブルモダリティをまたいだ共同推論の可能性を見落としていることが多い。 本稿では,構造化EHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。 データセットを開発するために、まず2つのユニモーダルリソースを構築します。 1)MIMIC-CXR-VQAデータセット、新たに作成した医用視覚質問応答(VQA)ベンチマーク、特にEHR QAにおける画像モダリティの向上を目的とした。 2) EHRSQL(MIMIC-IV)は、以前に確立されたテーブルベースのEHR QAデータセットのリファッショニング版である。 これら2つのユニモーダルリソースを統合することで、ユニモーダルおよびクロスモーダル推論の両方を必要とするマルチモーダル EHR QAデータセットの構築に成功した。 EHRにおけるマルチモーダル質問の独特な課題に対処するために,外部VQA APIを備えたNeuralSQLベースの戦略を提案する。 この先駆的な取り組みは、マルチモーダルなEHRソースとの関わりを強化し、我々のデータセットは、臨床意思決定や研究のような現実の医療シナリオにおける進歩を触媒できると考えている。 EHRXQAはhttps://github.com/baeseongsu/ehrxqa.comで入手できる。

Electronic Health Records (EHRs), which contain patients' medical histories in various multi-modal formats, often overlook the potential for joint reasoning across imaging and table modalities underexplored in current EHR Question Answering (QA) systems. In this paper, we introduce EHRXQA, a novel multi-modal question answering dataset combining structured EHRs and chest X-ray images. To develop our dataset, we first construct two uni-modal resources: 1) The MIMIC-CXR-VQA dataset, our newly created medical visual question answering (VQA) benchmark, specifically designed to augment the imaging modality in EHR QA, and 2) EHRSQL (MIMIC-IV), a refashioned version of a previously established table-based EHR QA dataset. By integrating these two uni-modal resources, we successfully construct a multi-modal EHR QA dataset that necessitates both uni-modal and cross-modal reasoning. To address the unique challenges of multi-modal questions within EHRs, we propose a NeuralSQL-based strategy equipped with an external VQA API. This pioneering endeavor enhances engagement with multi-modal EHR sources and we believe that our dataset can catalyze advances in real-world medical scenarios such as clinical decision-making and research. EHRXQA is available at https://github.com/baeseongsu/ehrxqa.
翻訳日:2023-12-27 21:46:16 公開日:2023-12-25
# Pseudo Label Self-Refinement を用いた意味分割のための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation with Pseudo Label Self-Refinement ( http://arxiv.org/abs/2310.16979v2 )

ライセンス: Link先を確認
Xingchen Zhao, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han-Pang Chiu, Supun Samarasekera(参考訳) セマンティックセグメンテーションのためのディープラーニングベースのソリューションは、トレーニングで使用されたものとは異なる特徴を持つデータでテストした場合、大きなパフォーマンス劣化に悩まされる。 新しいドメインからアノテーション付きデータを使ってモデルを適用することは、必ずしも現実的ではありません。 教師なしドメイン適応(UDA)アプローチは、実際の運用環境でこれらのモデルをデプロイするのに不可欠である。 近年のSOTA (State-of-the-art) UDA法では教師が学習する自己学習手法を採用しており,教師モデルを用いて新しいデータに対する擬似ラベルを生成し,学生モデルの学習過程を導出する。 このアプローチは多くの成功を収めていますが、トレーニングプロセスで騒がしい擬似ラベルが伝播する問題に苦しんでいます。 この問題に対処するために,擬似ラベルのオンライン精錬や,予測されたラベルがノイズになりやすいピクセルのローカライズのための補助擬似ラベル精錬ネットワーク(PRN)を提案する。 PRNは擬似ラベルの品質を改善し、信頼性の高いラベルを選択することができ、適応の異なる段階で擬似ラベルのノイズ伝搬に対して頑健なセグメンテーションモデルの自己学習を支援する。 我々は、3つの異なるドメインシフトを持つベンチマークデータセットに対するアプローチを評価し、従来の最先端手法よりも一貫して優れた性能を示す。

Deep learning-based solutions for semantic segmentation suffer from significant performance degradation when tested on data with different characteristics than what was used during the training. Adapting the models using annotated data from the new domain is not always practical. Unsupervised Domain Adaptation (UDA) approaches are crucial in deploying these models in the actual operating conditions. Recent state-of-the-art (SOTA) UDA methods employ a teacher-student self-training approach, where a teacher model is used to generate pseudo-labels for the new data which in turn guide the training process of the student model. Though this approach has seen a lot of success, it suffers from the issue of noisy pseudo-labels being propagated in the training process. To address this issue, we propose an auxiliary pseudo-label refinement network (PRN) for online refining of the pseudo labels and also localizing the pixels whose predicted labels are likely to be noisy. Being able to improve the quality of pseudo labels and select highly reliable ones, PRN helps self-training of segmentation models to be robust against pseudo label noise propagation during different stages of adaptation. We evaluate our approach on benchmark datasets with three different domain shifts, and our approach consistently performs significantly better than the previous state-of-the-art methods.
翻訳日:2023-12-27 21:45:20 公開日:2023-12-25
# 不完全なスーパービジョンによる実世界の画像復調学習

Learning Real-World Image De-Weathering with Imperfect Supervision ( http://arxiv.org/abs/2310.14958v3 )

ライセンス: Link先を確認
Xiaohui Liu and Zhilu Zhang and Xiaohe Wu and Chaoyu Feng and Xiaotao Wang and Lei Lei and Wangmeng Zuo(参考訳) 現実のイメージデウェザリングは、さまざまな好ましくない気象関連アーティファクトを取り除くことを目的としている。 画像ペアを同時にキャプチャすることができないため、既存の現実世界のデウェザリングデータセットは、接地トラス画像と入力された劣化画像の間の一貫性のない照明、位置、テクスチャをしばしば示し、不完全な監視をもたらす。 このような非理想的監督は、学習に基づく脱湿法の訓練過程に悪影響を及ぼす。 本研究では,様々な不整合に対する統一解を用いてこの問題に対処する。 具体的には,情報ボトルネック理論に触発されて,入力劣化画像と可能な限り一貫性のある擬似ラベルを生成するための一貫性ラベルコンストラクタ(clc)を開発した。 特に、現在の入力の複数の隣接フレームもCLCに入力され、擬似ラベルが強化される。 次に,従来の不完全ラベルと擬似ラベルを組み合わせて,提案した情報割当戦略(IAS)による脱ウェザリングモデルを共同で監督する。 テスト中は、推論にデヒータリングモデルのみが使用される。 実世界のデウィータリングデータセットを2つ実験した結果,既存のデウィータリングモデルの性能向上に寄与することがわかった。 コードはhttps://github.com/1180300419/imperfect-deweatheringで入手できる。

Real-world image de-weathering aims at removing various undesirable weather-related artifacts. Owing to the impossibility of capturing image pairs concurrently, existing real-world de-weathering datasets often exhibit inconsistent illumination, position, and textures between the ground-truth images and the input degraded images, resulting in imperfect supervision. Such non-ideal supervision negatively affects the training process of learning-based de-weathering methods. In this work, we attempt to address the problem with a unified solution for various inconsistencies. Specifically, inspired by information bottleneck theory, we first develop a Consistent Label Constructor (CLC) to generate a pseudo-label as consistent as possible with the input degraded image while removing most weather-related degradations. In particular, multiple adjacent frames of the current input are also fed into CLC to enhance the pseudo-label. Then we combine the original imperfect labels and pseudo-labels to jointly supervise the de-weathering model by the proposed Information Allocation Strategy (IAS). During testing, only the de-weathering model is used for inference. Experiments on two real-world de-weathering datasets show that our method helps existing de-weathering models achieve better performance. Codes are available at https://github.com/1180300419/imperfect-deweathering.
翻訳日:2023-12-27 21:44:30 公開日:2023-12-25
# O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留

O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models ( http://arxiv.org/abs/2310.14403v2 )

ライセンス: Link先を確認
Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann, Deepeka Garg, Sumitra Ganesh(参考訳) 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。 プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。 しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。 そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。 テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。 次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。 O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。 2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to facilitate the in-context learning performance of LLM agents. We formally define LLM-powered policies with both text-based approaches and code-based approaches. We then introduce an Offline Data-driven Discovery and Distillation (O3D) framework to improve LLM-powered policies without finetuning. O3D automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs with both text-based-policy and code-based-policy.
翻訳日:2023-12-27 21:44:07 公開日:2023-12-25
# パースペクティブデバイアスによるマルチカメラ3次元物体検出の一般化に向けて

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing ( http://arxiv.org/abs/2310.11346v3 )

ライセンス: Link先を確認
Hao Lu, Yunpeng Zhang, Qing Lian, Dalong Du, Yingcong Chen(参考訳) マルチカメラ(MC3D-Det)と呼ばれる複数のカメラを用いた3D空間の物体検出は,鳥眼ビュー(BEV)アプローチの出現によって注目されている。 しかし、これらの手法は、様々な視点や環境を含む多様なトレーニングデータが欠如しているため、慣れないテスト環境に直面している場合が多い。 そこで本研究では, 2次元カメラ平面による3次元検出を統一的かつ高精度に行う新しい手法を提案する。 私たちのフレームワークは、視点の偏りを保ち、ドメインシフトに耐性のある機能の学習に役立ちます。 提案手法では,BEVの特徴から多様なビューマップを描画し,これらのマップの視点バイアスを補正し,暗黙のフォアグラウンドボリュームを利用してカメラとBEV平面をブリッジする。 この2段階のプロセスは視点と文脈に依存しない特徴の学習を促進し、様々な視点、カメラパラメータ、環境条件の正確な物体検出に不可欠である。 特に、モデルに依存しないアプローチは、追加の推論コストを伴わずに元のネットワーク構造を保持し、さまざまなモデル間のシームレスな統合を促進し、デプロイを単純化します。 さらに本手法は,仮想データセットのみを用いてトレーニングした場合に,実際のデータで満足な結果が得られることを示す。 ドメイン一般化(DG)とUnsupervised Domain Adaptation(UDA)の両方の実験結果は、その効果を明らかに示している。 コードはhttps://github.com/EnVision-Research/Generalizable-BEVで入手できる。

Detecting objects in 3D space using multiple cameras, known as Multi-Camera 3D Object Detection (MC3D-Det), has gained prominence with the advent of bird's-eye view (BEV) approaches. However, these methods often struggle when faced with unfamiliar testing environments due to the lack of diverse training data encompassing various viewpoints and environments. To address this, we propose a novel method that aligns 3D detection with 2D camera plane results, ensuring consistent and accurate detections. Our framework, anchored in perspective debiasing, helps the learning of features resilient to domain shifts. In our approach, we render diverse view maps from BEV features and rectify the perspective bias of these maps, leveraging implicit foreground volumes to bridge the camera and BEV planes. This two-step process promotes the learning of perspective- and context-independent features, crucial for accurate object detection across varying viewpoints, camera parameters, and environmental conditions. Notably, our model-agnostic approach preserves the original network structure without incurring additional inference costs, facilitating seamless integration across various models and simplifying deployment. Furthermore, we also show our approach achieves satisfactory results in real data when trained only with virtual datasets, eliminating the need for real scene annotations. Experimental results on both Domain Generalization (DG) and Unsupervised Domain Adaptation (UDA) clearly demonstrate its effectiveness. The codes are available at https://github.com/EnVision-Research/Generalizable-BEV.
翻訳日:2023-12-27 21:43:19 公開日:2023-12-25
# 視覚言語モデルに対する対向的プロンプトチューニング

Adversarial Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2311.11261v2 )

ライセンス: Link先を確認
Jiaming Zhang, Xingjun Ma, Xin Wang, Lingyu Qiu, Jiaqi Wang, Yu-Gang Jiang, Jitao Sang(参考訳) マルチモーダル学習の急速な進歩に伴い、CLIPのような事前学習された視覚言語モデル(VLM)は、視覚と言語の間のギャップを埋める際、顕著な能力を示した。 しかし、これらのモデルは敵の攻撃、特に画像のモダリティに弱いままであり、かなりのセキュリティリスクが生じる。 本稿では,VLMにおける画像エンコーダの対向性を高める手法であるAdvPT(Adversarial Prompt Tuning)を提案する。 AdvPTは、学習可能なテキストプロンプトを革新的に活用し、それを敵対的な画像埋め込みと整合させ、広範囲なパラメータトレーニングやモデルアーキテクチャの変更を必要とせずに、VLMに固有の脆弱性に対処する。 我々は,AdvPTがホワイトボックス攻撃やブラックボックス攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで,防御能力をさらに向上することを示す。 総合的な実験分析は、テキスト入力の修正を通じて、対向画像に対する抵抗を改善することに特化した新しいパラダイムである、対向プロンプトチューニングに関する洞察を与え、将来の堅牢なマルチモーダル学習研究への道を開く。 これらの知見は、VLMの安全性を高める新たな可能性を開く。 私たちのコードはhttps://github.com/jiamingzhang94/Adversarial-Prompt-Tuningで利用可能です。

With the rapid advancement of multimodal learning, pre-trained Vision-Language Models (VLMs) such as CLIP have demonstrated remarkable capacities in bridging the gap between visual and language modalities. However, these models remain vulnerable to adversarial attacks, particularly in the image modality, presenting considerable security risks. This paper introduces Adversarial Prompt Tuning (AdvPT), a novel technique to enhance the adversarial robustness of image encoders in VLMs. AdvPT innovatively leverages learnable text prompts and aligns them with adversarial image embeddings, to address the vulnerabilities inherent in VLMs without the need for extensive parameter training or modification of the model architecture. We demonstrate that AdvPT improves resistance against white-box and black-box adversarial attacks and exhibits a synergistic effect when combined with existing image-processing-based defense techniques, further boosting defensive capabilities. Comprehensive experimental analyses provide insights into adversarial prompt tuning, a novel paradigm devoted to improving resistance to adversarial images through textual input modifications, paving the way for future robust multimodal learning research. These findings open up new possibilities for enhancing the security of VLMs. Our code is available at https://github.com/jiamingzhang94/Adversarial-Prompt-Tuning.
翻訳日:2023-12-27 21:35:40 公開日:2023-12-25
# 量子誤り訂正のための機械学習モデルのベンチマーク

Benchmarking Machine Learning Models for Quantum Error Correction ( http://arxiv.org/abs/2311.11167v2 )

ライセンス: Link先を確認
Tim Fu and Yue Zhao(参考訳) qec(quantum error correction)は、量子コンピュータシステムにおける基本的な問題の一つであり、量子コンピュータ内のデータキュービット内のエラーの検出と訂正を目的としている。 既存の量子コンピュータに信頼できないデータキュービットが存在するため、量子誤差補正を実装することは、安定した量子コンピュータシステムを構築する上で重要なステップである。 近年,機械学習(ML)に基づくアプローチが提案されている。 しかし、それらは量子誤差補正の完全な理解を欠いている。 本稿では,この研究ギャップを埋めるために,機械学習に基づくQECを理解するための新たな視点を提供する。 その結果,接続されたデータキュービットの誤りがアンシラキュービットのシンドロームの原因となり,アンシラキュービットはデータキュービットの誤った予測を除外する補助情報を提供できることがわかった。 したがって、データキュービットの誤りを検出するためには、長距離アンシラキュービットに存在する情報を考慮する必要がある。 我々の知る限りでは、機械学習はQECの依存関係関係では研究されていない。 空白を埋めるために、機械学習ベンチマークをキュレートし、量子エラー訂正のための長距離依存関係をキャプチャする能力を評価する。 本稿では,畳み込みニューラルネットワーク,グラフニューラルネットワーク,グラフトランスフォーマーなど,さまざまなニューラルネットワークアーキテクチャを対象とした,最先端の7つのディープラーニングアルゴリズムを評価する。 遠方のアシラキュービットからの情報を活用するための受容場を拡大することにより、QECの精度が大幅に向上する。 例えば、u-netはcnnを50%程度のマージンで改善できる。 最後に、この分野の今後の研究を刺激する包括的な分析を提供する。

Quantum Error Correction (QEC) is one of the fundamental problems in quantum computer systems, which aims to detect and correct errors in the data qubits within quantum computers. Due to the presence of unreliable data qubits in existing quantum computers, implementing quantum error correction is a critical step when establishing a stable quantum computer system. Recently, machine learning (ML)-based approaches have been proposed to address this challenge. However, they lack a thorough understanding of quantum error correction. To bridge this research gap, we provide a new perspective to understand machine learning-based QEC in this paper. We find that syndromes in the ancilla qubits result from errors on connected data qubits, and distant ancilla qubits can provide auxiliary information to rule out some incorrect predictions for the data qubits. Therefore, to detect errors in data qubits, we must consider the information present in the long-range ancilla qubits. To the best of our knowledge, machine learning is less explored in the dependency relationship of QEC. To fill the blank, we curate a machine learning benchmark to assess the capacity to capture long-range dependencies for quantum error correction. To provide a comprehensive evaluation, we evaluate seven state-of-the-art deep learning algorithms spanning diverse neural network architectures, such as convolutional neural networks, graph neural networks, and graph transformers. Our exhaustive experiments reveal an enlightening trend: By enlarging the receptive field to exploit information from distant ancilla qubits, the accuracy of QEC significantly improves. For instance, U-Net can improve CNN by a margin of about 50%. Finally, we provide a comprehensive analysis that could inspire future research in this field.
翻訳日:2023-12-27 21:35:18 公開日:2023-12-25
# 脳記録からの言語生成

Language Generation from Brain Recordings ( http://arxiv.org/abs/2311.09889v3 )

ライセンス: Link先を確認
Ziyi Ye, Qingyao Ai, Yiqun Liu, Min Zhang, Christina Lioma, Tuukka Ruotsalo(参考訳) 非侵襲的脳-コンピュータインタフェース(BCI)による人間の言語の生成は、障害者に提供したりコミュニケーションを改善するなど、多くの応用を解き放つ可能性がある。 しかし、現在、bcisによる言語生成は、最も可能性の高い皮質意味表現を持つ前生成文継続候補を選択するための分類設定でのみ成功している。 脳と大規模計算言語モデルとの関係を明らかにする最近の研究に触発されて,意味的脳デコーダと組み合わせて,機能的磁気共鳴画像(fMRI)入力から言語を直接生成する,大規模言語モデル(LLM)のキャパシティを利用する生成言語BCIを提案する。 提案モデルは,事前生成した候補の事前知識を必要とせず,視覚刺激や聴覚刺激の意味的内容に整合したコヒーレントな言語系列を生成することができる。 提案したモデルから生成された言語を,ランダム制御,事前生成言語選択アプローチ,および標準LCMと比較し,統計的言語学習データに基づいて,次の単語の確率のみに基づいて共通コヒーレントテキストを生成する。 提案モデルでは,脳の入力がサンプリングされたときのセマンティック刺激とより整合した言語を生成する。 本研究は,直接言語生成におけるbcis活用の可能性と実現可能性を示す。

Generating human language through non-invasive brain-computer interfaces (BCIs) has the potential to unlock many applications, such as serving disabled patients and improving communication. Currently, however, generating language via BCIs has been previously successful only within a classification setup for selecting pre-generated sentence continuation candidates with the most likely cortical semantic representation. Inspired by recent research that revealed associations between the brain and the large computational language models, we propose a generative language BCI that utilizes the capacity of a large language model (LLM) jointly with a semantic brain decoder to directly generate language from functional magnetic resonance imaging (fMRI) input. The proposed model can generate coherent language sequences aligned with the semantic content of visual or auditory language stimuli perceived, without prior knowledge of any pre-generated candidates. We compare the language generated from the presented model with a random control, pre-generated language selection approach, and a standard LLM, which generates common coherent text solely based on the next word likelihood according to statistical language training data. The proposed model is found to generate language that is more aligned with semantic stimulus in response to which brain input is sampled. Our findings demonstrate the potential and feasibility of employing BCIs in direct language generation.
翻訳日:2023-12-27 21:34:19 公開日:2023-12-25
# マスク顔データセット生成とマスク顔認識

Masked Face Dataset Generation and Masked Face Recognition ( http://arxiv.org/abs/2311.07475v2 )

ライセンス: Link先を確認
Rui Cai, Xuying Ning, Peter N. Belhumeur(参考訳) ポストパンデミック時代には、顔のマスクを着用することは、普通の顔認識に大きな課題となった。 前回の研究では、事前訓練されたVGG16とResNet50を使用して、精巧にキュレートされた既存のマスク顔認識(MFR)データセット、RMFRDとSMFRDの特徴を抽出した。 サンプルサイズが小さく、カメラ環境が大きく変化した実世界の状況に適応できるように、我々は、野生(LFW)データセットにおけるLabelled Facesから50のIDと1702の画像を選択し、キーポイント検出によってシミュレーションされたフェイスマスクを選択し、より挑戦的なマスクデータセットを作成しました。 研究のもう1つの部分は、マスク付き顔認識の問題を解決することであり、私たちは、事前訓練されたモデルを直接使用する代わりに、事前訓練されたモデルではなく、モデルを選択し、新しいデータセット上でモデルを微調整し、最終線形層を使用して、直接分類を行った。 さらに,テスト精度をさらに高めるためにデータ拡張戦略を用いることを提案し,最も sota ネットワークである inception resnet v1 の先行研究を超えて,新たなネットワークを微調整した。 50のアイデンティティMFR上での最良のテスト精度は95%に達した。

In the post-pandemic era, wearing face masks has posed great challenge to the ordinary face recognition. In the previous study, researchers has applied pretrained VGG16, and ResNet50 to extract features on the elaborate curated existing masked face recognition (MFR) datasets, RMFRD and SMFRD. To make the model more adaptable to the real world situation where the sample size is smaller and the camera environment has greater changes, we created a more challenging masked face dataset ourselves, by selecting 50 identities with 1702 images from Labelled Faces in the Wild (LFW) Dataset, and simulated face masks through key point detection. The another part of our study is to solve the masked face recognition problem, and we chose models by referring to the former state of the art results, instead of directly using pretrained models, we fine tuned the model on our new dataset and use the last linear layer to do the classification directly. Furthermore, we proposed using data augmentation strategy to further increase the test accuracy, and fine tuned a new networks beyond the former study, one of the most SOTA networks, Inception ResNet v1. The best test accuracy on 50 identity MFR has achieved 95%.
翻訳日:2023-12-27 21:33:56 公開日:2023-12-25
# SAMVG:Segment-Anythingモデルを用いた多段階画像ベクトル化モデル

SAMVG: A Multi-stage Image Vectorization Model with the Segment-Anything Model ( http://arxiv.org/abs/2311.05276v2 )

ライセンス: Link先を確認
Haokun Zhu, Juang Ian Chong, Teng Hu, Ran Yi, Yu-Kun Lai, Paul L. Rosin(参考訳) ベクターグラフィックスはグラフィックデザインで広く使われており、ますます注目を集めている。 しかし、簡単に得ることができるラスター画像とは異なり、高品質なベクターグラフィックスを取得することは、ラスター画像から自動的に変換することで、特に写真やアートワークのようなより複雑な画像に対して大きな課題となる。 本稿では,ラスタ画像をSVG(Scalable Vector Graphics)にベクトル化する多段階モデルSAMVGを提案する。 第一に、SAMVGはSegment-Anything Modelによって提供される一般的な画像セグメンテーションを使い、新しいフィルタリング手法を用いて画像全体の最も高密度なセグメンテーションマップを識別する。 次に、SAMVGは欠落したコンポーネントを特定し、SVGにより詳細なコンポーネントを追加する。 一連の大規模な実験を通して,SAMVGは従来の最先端手法に比べて計算時間と複雑さを少なくしながら,高品質なSVGを任意の領域で生成できることを実証した。

Vector graphics are widely used in graphical designs and have received more and more attention. However, unlike raster images which can be easily obtained, acquiring high-quality vector graphics, typically through automatically converting from raster images remains a significant challenge, especially for more complex images such as photos or artworks. In this paper, we propose SAMVG, a multi-stage model to vectorize raster images into SVG (Scalable Vector Graphics). Firstly, SAMVG uses general image segmentation provided by the Segment-Anything Model and uses a novel filtering method to identify the best dense segmentation map for the entire image. Secondly, SAMVG then identifies missing components and adds more detailed components to the SVG. Through a series of extensive experiments, we demonstrate that SAMVG can produce high quality SVGs in any domain while requiring less computation time and complexity compared to previous state-of-the-art methods.
翻訳日:2023-12-27 21:33:13 公開日:2023-12-25
# アウト・オブ・ディストリビューション検出のための分布拡大学習

Learning to Augment Distributions for Out-of-Distribution Detection ( http://arxiv.org/abs/2311.01796v2 )

ライセンス: Link先を確認
Qizhou Wang, Zhen Fang, Yonggang Zhang, Feng Liu, Yixuan Li, Bo Han(参考訳) オープンワールド分類システムでは,OOD検出の最近の研究を動機として,ラベルが非流通(ID)症例と区別されるOOD(out-of-distriion)データを識別すべきである。 有望な進歩にもかかわらず、未発見のoodデータに関する知識が不足しているため、オープンな世界ではまだ失敗する可能性がある。 モデルトレーニングのために補助oodデータ(見えないデータとは別物)にアクセスすることは可能だが、そのような補助データがオープン世界でどのように機能するかを分析することは難しい。 この目的のために,学習理論の観点から,補助データと実データとの分布の不一致がオープンワールド検出性能に影響を与える鍵となることを明らかにする。 そこで我々は, 補助OOD分布を中心としたワッサースタイン球の分布を含むOOD分布セットを作成することにより, OOD分布の相違を緩和する分散拡張OOD学習(DAL)を提案する。 我々は,ボール内の最悪のOODデータに対してトレーニングした予測器がOOD分布のずれを小さくし,補助OODデータのみを付加したオープンワールド検出性能を向上させることを正当化する。 代表的なOOD検出装置にまたがって広範囲な評価を行い、先進的なOOD検出装置よりもDALの方が優れていることを示す。

Open-world classification systems should discern out-of-distribution (OOD) data whose labels deviate from those of in-distribution (ID) cases, motivating recent studies in OOD detection. Advanced works, despite their promising progress, may still fail in the open world, owing to the lack of knowledge about unseen OOD data in advance. Although one can access auxiliary OOD data (distinct from unseen ones) for model training, it remains to analyze how such auxiliary data will work in the open world. To this end, we delve into such a problem from a learning theory perspective, finding that the distribution discrepancy between the auxiliary and the unseen real OOD data is the key to affecting the open-world detection performance. Accordingly, we propose Distributional-Augmented OOD Learning (DAL), alleviating the OOD distribution discrepancy by crafting an OOD distribution set that contains all distributions in a Wasserstein ball centered on the auxiliary OOD distribution. We justify that the predictor trained over the worst OOD data in the ball can shrink the OOD distribution discrepancy, thus improving the open-world detection performance given only the auxiliary OOD data. We conduct extensive evaluations across representative OOD detection setups, demonstrating the superiority of our DAL over its advanced counterparts.
翻訳日:2023-12-27 21:30:30 公開日:2023-12-25
# ArabIcros:AIを利用した教育用クロスワードパズル生成

ArabIcros: AI-Powered Arabic Crossword Puzzle Generation for Educational Applications ( http://arxiv.org/abs/2312.01339v3 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Mohamed Zaky Saad, Marco Maggini, Marco Gori(参考訳) 先進的なAI技術によって駆動される最初のアラビア語クロスワードパズル生成器を提案する。 GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, BERTといった最先端の大規模言語モデルを活用すると、システムは独特で困難な手がかりを生成する。 5万以上のヒントと回答のペアからなるデータセットに基づいて、ジェネレータは、微調整、少数/ゼロショットの学習戦略、厳格な品質チェックプロトコルを使用して、高品質のヒントと回答のペアを生成する。 重要なのは、教育クロスワードは記憶の強化、語彙の拡張、問題解決スキルの促進に寄与し、楽しみと魅力的なアプローチを通じて学習体験を増強し、伝統的な学習方法の展望を再構築する。 システム全体は、AIと革新的な学習技術を融合させる強力な教育ツールとして利用でき、アラビア語のクロスワードパズルと技術と教育の交わる時代の転換を告げる。

This paper presents the first Arabic crossword puzzle generator driven by advanced AI technology. Leveraging cutting-edge large language models including GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, and BERT, the system generates distinctive and challenging clues. Based on a dataset comprising over 50,000 clue-answer pairs, the generator employs fine-tuning, few/zero-shot learning strategies, and rigorous quality-checking protocols to enforce the generation of high-quality clue-answer pairs. Importantly, educational crosswords contribute to enhancing memory, expanding vocabulary, and promoting problem-solving skills, thereby augmenting the learning experience through a fun and engaging approach, reshaping the landscape of traditional learning methods. The overall system can be exploited as a powerful educational tool that amalgamates AI and innovative learning techniques, heralding a transformative era for Arabic crossword puzzles and the intersection of technology and education.
翻訳日:2023-12-27 21:21:53 公開日:2023-12-25
# Hashmarks:AI評価のためのプライバシ保護ベンチマーク

Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation ( http://arxiv.org/abs/2312.00645v2 )

ライセンス: Link先を確認
Paul Bricman(参考訳) バイオテロリズムやサイバー戦争のようなセンシティブなトピックに関連する言語モデルの能力に関する洞察を得る必要性が高まっている。 しかし、従来のオープンソースベンチマークは、正しい回答を人間に読める形で公開する習慣があるため、このタスクには適していない。 同時に、強制的な四半期評価の実施は、開発を阻害し、信頼を損なう可能性がある。 本稿では,正しい回答を開示することなく,オープンで言語モデルを評価するためのプロトコルであるhashmarkingを提案する。 最も単純な形式では、hashmarkは公開前に参照ソリューションが暗号的にハッシュ化されているベンチマークである。 提案した評価プロトコルの概要に続いて,従来の攻撃ベクトル(虹色のテーブルアタックなど)に対するレジリエンスや,より有能な生成モデルに特有の障害モードに対するレジリエンスを評価する。

There is a growing need to gain insight into language model capabilities that relate to sensitive topics, such as bioterrorism or cyberwarfare. However, traditional open source benchmarks are not fit for the task, due to the associated practice of publishing the correct answers in human-readable form. At the same time, enforcing mandatory closed-quarters evaluations might stifle development and erode trust. In this context, we propose hashmarking, a protocol for evaluating language models in the open without having to disclose the correct answers. In its simplest form, a hashmark is a benchmark whose reference solutions have been cryptographically hashed prior to publication. Following an overview of the proposed evaluation protocol, we go on to assess its resilience against traditional attack vectors (e.g. rainbow table attacks), as well as against failure modes unique to increasingly capable generative models.
翻訳日:2023-12-27 21:21:32 公開日:2023-12-25
# ハンドアクション認識と動作予測のための階層型時間変換器

Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction ( http://arxiv.org/abs/2311.17366v2 )

ライセンス: Link先を確認
Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato, Taku Komura, Wenping Wang(参考訳) ハンドアクション認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。 従来の研究は認識と予測に重点を置いていたが,両面を共同で捉えるための生成型トランスフォーマーVAEアーキテクチャを提案し,短期手の動きとタイムスタンプ間の長期動作の整合性を利用して,現実的な動作予測を容易にする。 セマンティック依存関係の忠実な表現とポーズとアクションの時間的粒度の相違を保証するため,本フレームワークを2つのVAEブロックに分解する。 下部のポーズブロックはショートスパンのポーズを、上部のアクションブロックはロングスパンのアクションをモデル化する。 これらは、ハンドポーズのサブ秒列を表す中間レベル機能によって接続されます。 私たちのフレームワークは、複数のデータセットでトレーニングされ、ポーズとアクションブロックは別々にトレーニングされ、異なる品質のポーズアクションアノテーションを十分に活用します。 評価の結果、複数のデータセットにおいて、認識と予測のジョイントモデリングは、別々のソリューションよりも改善され、意味階層と時間階層は、長期的なポーズとアクションモデリングを可能にする。

We present a novel framework that concurrently tackles hand action recognition and 3D future hand motion prediction. While previous works focus on either recognition or prediction, we propose a generative Transformer VAE architecture to jointly capture both aspects, facilitating realistic motion prediction by leveraging the short-term hand motion and long-term action consistency observed across timestamps. To ensure faithful representation of the semantic dependency and different temporal granularity of hand pose and action, our framework is decomposed into two cascaded VAE blocks. The lower pose block models short-span poses, while the upper action block models long-span action. These are connected by a mid-level feature that represents sub-second series of hand poses. Our framework is trained across multiple datasets, where pose and action blocks are trained separately to fully utilize pose-action annotations of different qualities. Evaluations show that on multiple datasets, the joint modeling of recognition and prediction improves over separate solutions, and the semantic and temporal hierarchy enables long-term pose and action modeling.
翻訳日:2023-12-27 21:20:30 公開日:2023-12-25
# General Phrase Debiaser:マルチトークンレベルでのマスク言語モデルのデバイアス

General Phrase Debiaser: Debiasing Masked Language Models at a Multi-Token Level ( http://arxiv.org/abs/2311.13892v2 )

ライセンス: Link先を確認
Bingkang Shi, Xiaodan Zhang, Dehan Kong, Yulei Wu, Zongzhen Liu, Honglei Lyu, Longtao Huang(参考訳) 事前訓練された言語モデルによって明らかになった社会的バイアスと不適切なステレオタイプは、彼らの応用の障害になりつつある。 単語レベルを対象とする多くのデバイアス化手法と比較して、フレーズレベルに存在するバイアスに対する関心は比較的少なく、規律領域におけるデバイアス化のパフォーマンスが制限されている。 本稿では,マスキング言語モデルにおける句レベルの偏りを緩和できる「textbf{ General Phrase Debiaser}」と呼ばれる自動多言語脱バイアスパイプラインを提案する。 具体的には、wikipediaページから定型的なフレーズを生成する \textit{phrase filter stage} と、複数トケンレベルでモデルをデバイアスし、フレーズのバイアス課題に取り組む \textit{model debias stage} からなる。 後者はモデルのバイアスをトリガーするプロンプトを検索し、デバイアスに使用する。 標準データセットとメトリクスの最先端結果から、我々のアプローチは、様々なパラメータサイズを持つモデル間で、キャリアと複数の規律の両方における性別バイアスを著しく低減できることを示している。

The social biases and unwelcome stereotypes revealed by pretrained language models are becoming obstacles to their application. Compared to numerous debiasing methods targeting word level, there has been relatively less attention on biases present at phrase level, limiting the performance of debiasing in discipline domains. In this paper, we propose an automatic multi-token debiasing pipeline called \textbf{General Phrase Debiaser}, which is capable of mitigating phrase-level biases in masked language models. Specifically, our method consists of a \textit{phrase filter stage} that generates stereotypical phrases from Wikipedia pages as well as a \textit{model debias stage} that can debias models at the multi-token level to tackle bias challenges on phrases. The latter searches for prompts that trigger model's bias, and then uses them for debiasing. State-of-the-art results on standard datasets and metrics show that our approach can significantly reduce gender biases on both career and multiple disciplines, across models with varying parameter sizes.
翻訳日:2023-12-27 21:18:54 公開日:2023-12-25
# 大規模言語モデルアライメントの多様な選好について

On Diversified Preferences of Large Language Model Alignment ( http://arxiv.org/abs/2312.07401v2 )

ライセンス: Link先を確認
Dun Zeng, Yong Dai, Pengyu Cheng, Tianhao Hu, Wanshun Chen, Nan Du, Zenglin Xu(参考訳) 大規模言語モデル(LLM)を人間の好みに合わせることが,LLMのインタラクション品質向上の鍵であると認識されている。 しかし、この多元的世界では、人間の嗜好は人の好みによって多様化し、LCMアライメント手法の有効性を阻害する。 本稿では,一般の人間フィードバックデータセットにおける多様な好みの存在を検証する最初の定量的解析を行う。 多様な選好によって生じるアライメントの非効率性を軽減するために,異なる選好データソース間で学習勾配を自動的に調整できる,新規な \textbf{M}ulti-\textbf{O}bjective \textbf{Re}ward learning method (MORE) を提案する。 実験では5つの混合ヒト選好データセットにおいてpythia-1.4bモデルを用いて,選好精度と予測校正の点で他の基準よりも優れた性能が得られることを示す。

Aligning large language models (LLMs) with human preferences has been recognized as the key to improving LLMs' interaction quality. However, in this pluralistic world, human preferences can be diversified by people's different tastes, which hinders the effectiveness of LLM alignment methods. In this paper, we provide the first quantitative analysis to verify the existence of diversified preferences in commonly used human feedback datasets. To mitigate the alignment ineffectiveness caused by diversified preferences, we propose a novel \textbf{M}ulti-\textbf{O}bjective \textbf{Re}ward learning method (MORE), which can automatically adjust the learning gradients across different preference data sources. In experiments, we evaluate MORE with the Pythia-1.4B model on five mixed human preference datasets, on which our method achieves superior performance compared with other baselines in terms of preference accuracy and prediction calibration.
翻訳日:2023-12-27 21:12:44 公開日:2023-12-25
# FAGC: 前形空間における測地曲線の肥大化

FAGC:Feature Augmentation on Geodesic Curve in the Pre-Shape Space ( http://arxiv.org/abs/2312.03325v3 )

ライセンス: Link先を確認
Yuexing Han, Guanxin Wan and Bing Wang(参考訳) 深層学習は様々な領域で顕著な結果をもたらした。 しかし、大規模なラベル付きサンプルを必要とするという課題は、いまだにディープラーニングにおいて持続している。 このように、ディープラーニングモデルをトレーニングするための重要な戦略として、データ拡張が導入されている。 しかし、データ拡張は小さなサンプル環境での情報損失と性能の低下に苦しむ。 これらの欠点を克服するため、我々は形状空間理論に基づく特徴増強法、すなわち、簡易性においてFAGCと呼ばれる測地線曲線上の特徴増強法を提案し、まず、ニューラルネットワークモデルを用いて画像から特徴を抽出する。 そして、複数の画像特徴を特徴として事前形状空間に投影する。 プレシェイプ空間では、特徴に合うようにジオデシック曲線が構築される。 最後に、Geodesic曲線上に生成された多くの特徴は、様々な機械学習モデルをトレーニングするために使用される。 FAGCモジュールは、ほとんどの機械学習メソッドとシームレスに統合できる。 また,提案手法は小規模サンプルデータセットに対して単純で効果的で非感受性であり,fagc法が小規模サンプル環境でのデータプリプロセッシングモデルの性能を大幅に向上できることを示す。

Deep learning has yielded remarkable outcomes in various domains. However, the challenge of requiring large-scale labeled samples still persists in deep learning. Thus, data augmentation has been introduced as a critical strategy to train deep learning models. However, data augmentation suffers from information loss and poor performance in small sample environments. To overcome these drawbacks, we propose a feature augmentation method based on shape space theory, i.e., feature augmentation on Geodesic curve, called FAGC in brevity.First, we extract features from the image with the neural network model. Then, the multiple image features are projected into a pre-shape space as features. In the pre-shape space, a Geodesic curve is built to fit the features. Finally, the many generated features on the Geodesic curve are used to train the various machine learning models. The FAGC module can be seamlessly integrated with most machine learning methods. And the proposed method is simple, effective and insensitive for the small sample datasets.Several examples demonstrate that the FAGC method can greatly improve the performance of the data preprocessing model in a small sample environment.
翻訳日:2023-12-27 21:08:16 公開日:2023-12-25
# GSQA: 創発的質問応答のためのエンドツーエンドモデル

GSQA: An End-to-End Model for Generative Spoken Question Answering ( http://arxiv.org/abs/2312.09781v2 )

ライセンス: Link先を確認
Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee(参考訳) 近年の音声質問応答 (QA) の進歩により, エンドツーエンドモデルは大きな進歩を遂げている。 しかし、これまでの研究は主に抽出スパンの選択に焦点が当てられている。 この抽出ベースのアプローチは、入力の中に直接回答が存在する場合に有効であるが、与えられた情報から解が直接抽出されるのではなく推論される抽象的質問に対処するのに不足している。 このギャップを埋めるために,システムに抽象的推論を強制する,最初のエンドツーエンドのジェネレーティブ・スポット質問回答(GSQA)モデルを導入する。 GSQAモデルをトレーニングする上での課題は、音声抽象的なQAデータセットがないことです。 本稿では,テキスト生成モデルから音声生成モデルへ知識を伝達するために,抽出されたQAデータセットを初期化および活用するためにテキストモデルを提案する。 実験の結果, 抽出されたQAデータセットでは, 従来の抽出モデルよりも3%上回っていることがわかった。 さらに、GSQAモデルは、音声抽出QAデータセット上でのみ微調整されている。 音声による抽象的なQAデータを見たことはないが、それでもカスケードモデルの性能と密に一致させることができる。 結論として,我々のGSQAモデルは,より広い範囲の質問に一般化できる可能性を示し,抽象的QAの音声質問応答能力をさらに拡張する。 私たちのコードはhttps://voidful.github.io/GSQAで利用可能です。

In recent advancements in spoken question answering (QA), end-to-end models have made significant strides. However, previous research has primarily focused on extractive span selection. While this extractive-based approach is effective when answers are present directly within the input, it falls short in addressing abstractive questions, where answers are not directly extracted but inferred from the given information. To bridge this gap, we introduce the first end-to-end Generative Spoken Question Answering (GSQA) model that empowers the system to engage in abstractive reasoning. The challenge in training our GSQA model lies in the absence of a spoken abstractive QA dataset. We propose using text models for initialization and leveraging the extractive QA dataset to transfer knowledge from the text generative model to the spoken generative model. Experimental results indicate that our model surpasses the previous extractive model by 3% on extractive QA datasets. Furthermore, the GSQA model has only been fine-tuned on the spoken extractive QA dataset. Despite not having seen any spoken abstractive QA data, it can still closely match the performance of the cascade model. In conclusion, our GSQA model shows the potential to generalize to a broad spectrum of questions, thus further expanding the spoken question answering capabilities of abstractive QA. Our code is available at https://voidful.github.io/GSQA
翻訳日:2023-12-27 21:00:51 公開日:2023-12-25
# DriveMLM: 自律運転のための行動計画条件付き多モード大言語モデルのアラインメント

DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving ( http://arxiv.org/abs/2312.09245v2 )

ライセンス: Link先を確認
Wenhai Wang, Jiangwei Xie, ChuanYang Hu, Haoming Zou, Jianan Fan, Wenwen Tong, Yang Wen, Silei Wu, Hanming Deng, Zhiqi Li, Hao Tian, Lewei Lu, Xizhou Zhu, Xiaogang Wang, Yu Qiao, Jifeng Dai(参考訳) 大きな言語モデル(LLM)は、人間のような思考と認知能力を持つインテリジェントエージェントの新しい可能性を開く。 本研究では,自動運転(AD)における大規模言語モデル(LLM)の可能性を探究する。 我々は、現実のシミュレータでクローズループの自動運転を実行できるllmベースの広告フレームワークであるdrivemlmを紹介する。 この目的のために,(1)既成の移動計画モジュールに従って決定状態を標準化することにより,言語決定と車両制御コマンドのギャップを埋める。 2)マルチモーダルLCM(MLLM)を用いてモジュールADシステムの動作計画モジュールをモデル化し,各種センサ(例えばカメラ,ライダー)からの動作ルール,ユーザコマンド,入力を入力として使用し,運転決定を行い,説明を提供する。 (3)モデルトレーニングと評価のための決定状態とそれに対応する説明アノテーションを含むデータセットを収集する有効なデータエンジンを設計する。 広範な実験を行い,本モデルがcarla town05の運転スコア76.1を達成し,同じ条件下でアポロのベースラインを4.7ポイント上回り,本モデルの有効性を実証した。 LLMによる自動運転のベースラインとして機能することを願っている。 コードとモデルはhttps://github.com/OpenGVLab/DriveMLMで公開される。

Large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models (LLMs) in autonomous driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform close-loop autonomous driving in realistic simulators. To this end, (1) we bridge the gap between the language decisions and the vehicle control commands by standardizing the decision states according to the off-the-shelf motion planning module. (2) We employ a multi-modal LLM (MLLM) to model the behavior planning module of a module AD system, which uses driving rules, user commands, and inputs from various sensors (e.g., camera, lidar) as input and makes driving decisions and provide explanations; This model can plug-and-play in existing AD systems such as Apollo for close-loop driving. (3) We design an effective data engine to collect a dataset that includes decision state and corresponding explanation annotation for model training and evaluation. We conduct extensive experiments and show that our model achieves 76.1 driving score on the CARLA Town05 Long, and surpasses the Apollo baseline by 4.7 points under the same settings, demonstrating the effectiveness of our model. We hope this work can serve as a baseline for autonomous driving with LLMs. Code and models shall be released at https://github.com/OpenGVLab/DriveMLM.
翻訳日:2023-12-27 20:59:37 公開日:2023-12-25
# 3次元インスタンス分割のためのSAM誘導グラフカット

SAM-guided Graph Cut for 3D Instance Segmentation ( http://arxiv.org/abs/2312.08372v2 )

ライセンス: Link先を確認
Haoyu Guo, He Zhu, Sida Peng, Yuang Wang, Yujun Shen, Ruizhen Hu, Xiaowei Zhou(参考訳) 本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。 これまで多くの研究が3Dポイントクラウドにディープラーニング技術を適用してきた。 しかし,これらの手法は,ラベル付き3Dポイントクラウドデータの不足と低多様性のため,様々な場面に一般化できなかった。 最近、ボトムアップフレームワーク内で2dインスタンスのセグメンテーションを3dに引き上げようと試みている。 ビュー間の2Dインスタンスセグメンテーションの不整合は、3Dセグメンテーションの性能を著しく低下させる。 本研究では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。 具体的には、シーンを3dで複数のスーパーポイントに事前セグメンテーションし、タスクをグラフカット問題に定式化する。 スーパーポイントグラフは2次元セグメンテーションモデルに基づいて構築され、マルチビュー画像特徴からノード特徴を取得し、マルチビューセグメンテーション結果に基づいてエッジ重みを算出し、より汎用性を高めることができる。 グラフを処理するために、2Dセグメンテーションモデルから擬似3Dラベルを用いてグラフニューラルネットワークを訓練する。 ScanNet, ScanNet++, KITTI-360データセットによる実験結果から, 本手法がロバストなセグメンテーション性能を実現し, 様々な場面にまたがって一般化可能であることが示された。 プロジェクトページはhttps://zju3dv.github.io/sam_graphで閲覧できます。

This paper addresses the challenge of 3D instance segmentation by simultaneously leveraging 3D geometric and multi-view image information. Many previous works have applied deep learning techniques to 3D point clouds for instance segmentation. However, these methods often failed to generalize to various types of scenes due to the scarcity and low-diversity of labeled 3D point cloud data. Some recent works have attempted to lift 2D instance segmentations to 3D within a bottom-up framework. The inconsistency in 2D instance segmentations among views can substantially degrade the performance of 3D segmentation. In this work, we introduce a novel 3D-to-2D query framework to effectively exploit 2D segmentation models for 3D instance segmentation. Specifically, we pre-segment the scene into several superpoints in 3D, formulating the task into a graph cut problem. The superpoint graph is constructed based on 2D segmentation models, where node features are obtained from multi-view image features and edge weights are computed based on multi-view segmentation results, enabling the better generalization ability. To process the graph, we train a graph neural network using pseudo 3D labels from 2D segmentation models. Experimental results on the ScanNet, ScanNet++ and KITTI-360 datasets demonstrate that our method achieves robust segmentation performance and can generalize across different types of scenes. Our project page is available at https://zju3dv.github.io/sam_graph.
翻訳日:2023-12-27 20:56:36 公開日:2023-12-25
# Osprey: ビジュアルインストラクションチューニングによるPixel理解

Osprey: Pixel Understanding with Visual Instruction Tuning ( http://arxiv.org/abs/2312.10032v2 )

ライセンス: Link先を確認
Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu(参考訳) MLLM(Multimodal large language model)は近年,視覚的インストラクションチューニングにより,汎用的な視覚言語機能を実現している。 しかし、現在のmllmは主に画像レベルやボックスレベルの理解に焦点を当てており、ピクセルレベルでの詳細な視覚言語アライメントの実現には至っていない。 さらに、マスクベースの命令データがないため、その進歩は制限される。 本稿では,大きめのマスク領域を言語指導に組み込むことでMLLMを拡張し,画素単位の視覚的理解を実現するためのマスクテキスト指導チューニング手法であるOspreyを提案する。 この目的を達成するため、まず724Kサンプルを用いてマスクベースの領域テキストデータセットを精巧にキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。 特に、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。 実験により,Ospreyの様々な領域理解タスクにおける優位性を示し,画素レベルの命令チューニングの新たな能力を示した。 特に、ospreyはsegment anything model (sam)とシームレスに統合でき、マルチグラニュラリティセマンティクスを得ることができる。 ソースコード、データセット、デモはhttps://github.com/CircleRadon/Ospreyで見ることができる。

Multimodal large language models (MLLMs) have recently achieved impressive general-purpose vision-language capabilities through visual instruction tuning. However, current MLLMs primarily focus on image-level or box-level understanding, falling short of achieving fine-grained vision-language alignment at the pixel level. Besides, the lack of mask-based instruction data limits their advancements. In this paper, we propose Osprey, a mask-text instruction tuning approach, to extend MLLMs by incorporating fine-grained mask regions into language instruction, aiming at achieving pixel-wise visual understanding. To achieve this goal, we first meticulously curate a mask-based region-text dataset with 724K samples, and then design a vision-language model by injecting pixel-level representation into LLM. Especially, Osprey adopts a convolutional CLIP backbone as the vision encoder and employs a mask-aware visual extractor to extract precise visual mask features from high resolution input. Experimental results demonstrate Osprey's superiority in various region understanding tasks, showcasing its new capability for pixel-level instruction tuning. In particular, Osprey can be integrated with Segment Anything Model (SAM) seamlessly to obtain multi-granularity semantics. The source code, dataset and demo can be found at https://github.com/CircleRadon/Osprey.
翻訳日:2023-12-27 20:44:04 公開日:2023-12-25
# HD-Painter:拡散モデルによる高分解能・高速テキストガイド画像

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models ( http://arxiv.org/abs/2312.14091v2 )

ライセンス: Link先を確認
Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi(参考訳) テキスト・ツー・イメージの拡散モデルが前例のない成功を収めたことから, テキスト誘導画像のインペイント化の進展は, 極めて現実的で視覚的にも妥当な結果をもたらしている。 しかし、現在のテキストから画像へのインペインティングモデルでは、特に、インペイント領域とユーザのプロンプトの整合性が向上し、高解像度インペインティングの実行が改善される可能性がある。 そこで本稿では,hd-painterについて紹介する。hd-painterは,高分解能画像インパインティングに対して,プロンプトとコヒーレントなスケールで正確に追従する,完全にトレーニング不要なアプローチである。 この目的のために,情報提供により自己注意スコアを向上し,テキストアライメントを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計する。 さらに迅速なコヒーレンスを改善するために,ポストホックサンプリング戦略をDDIMの汎用形式にシームレスに統合し,分散遅延シフトを防止するためのRASG(Reweighting Attention Score Guidance)機構を導入する。 さらに、HD-Painterは、インペイント用にカスタマイズされた特殊な超解像技術を導入し、最大2K解像度の画像の欠落した領域の完成を可能にする。 実験の結果,HD-Painterは既存の最先端アプローチを質的かつ定量的に上回り,61.4%と51.9%の精度向上を実現していることがわかった。 コードについては、https://github.com/Picsart-AI-Research/HD-Painterで公開します。

Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
翻訳日:2023-12-27 20:38:10 公開日:2023-12-25
# 構造化確率符号化

Structured Probabilistic Coding ( http://arxiv.org/abs/2312.13933v2 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,対象タスクに関連する入力からコンパクトで情報的な表現を学ぶための新しい教師あり表現学習フレームワークであるstructured probabilistic coding (spc)を提案する。 SPCはエンコーダのみの確率的符号化技術であり、ターゲットラベル空間から構造化正規化される。 事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。 具体的には,1つのモジュールで情報符号化とタスク予測を同時に実行し,入力データからの効果的な情報をより活用する。 出力空間における変分推論を用いてランダム性と不確実性を低減する。 さらに、潜在空間における確率分布をよりよく制御するために、潜在空間におけるクラスレベルの均一性を促進するために構造化正規化を提案する。 正規化項により、SPCは潜在コードのガウス分布構造を保ち、クラスで隠された空間を均一にカバーできる。 12の自然言語理解タスクに関する実験結果から,SPCが事前学習した言語モデルの性能を効果的に向上することが示された。 大規模な実験により、SPCは出力表現の一般化能力、ラベルノイズに対する堅牢性、クラスタリング品質を向上させることができることが示された。

This paper presents a new supervised representation learning framework, namely structured probabilistic coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target label space. It can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, our probabilistic coding technology simultaneously performs information encoding and task prediction in one module to more fully utilize the effective information from input data. It uses variational inference in the output space to reduce randomness and uncertainty. Besides, to better control the probability distribution in the latent space, a structured regularization is proposed to promote class-level uniformity in the latent space. With the regularization term, SPC can preserve the Gaussian distribution structure of latent code as well as better cover the hidden space with class uniformly. Experimental results on 12 natural language understanding tasks demonstrate that our SPC effectively improves the performance of pre-trained language models for classification and regression. Extensive experiments show that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations.
翻訳日:2023-12-27 20:37:38 公開日:2023-12-25
# hge:不均質な幾何部分空間の積空間への時間的知識グラフの埋め込み

HGE: Embedding Temporal Knowledge Graphs in a Product Space of Heterogeneous Geometric Subspaces ( http://arxiv.org/abs/2312.13680v2 )

ライセンス: Link先を確認
Jiaxin Pan, Mojtaba Nayyeri, Yinan Li, Steffen Staab(参考訳) 時間的知識グラフは、時間的事実を表す: $(s,p,o,\tau)$ 主題 $s$ と対象 $o$ を関係ラベル $p$ at time $\tau$ で関連付ける。 時間的知識グラフは、異なる時点における静的な時間的パターンと異なるタイムスタンプ間の動的時間的パターンを示す。 静的および動的時間パターンの豊富な集合を学習し、推論に適用するために、いくつかの埋め込みアプローチが文献に提案されている。 しかし、それらの多くは単一の基礎となる埋め込み空間に頼っているため、すべての時間パターンをモデル化する能力は、その1つの埋め込み空間の幾何学的性質に固執することによって著しく制限された。 我々は、時間的事実を異なる幾何学的性質を持つ幾何部分空間、すなわち、複素空間、双対空間、分割複体空間の積空間に写す埋め込みアプローチによって、この制限を持ち上げる。 また,異なる幾何部分空間からの情報を,キャプチャした関係情報や時間情報に応じて簡便に統合するための時間的幾何的注意機構を提案する。 標準時相ベンチマークデータセットの実験結果は,最先端モデルに対するアプローチを好意的に評価した。

Temporal knowledge graphs represent temporal facts $(s,p,o,\tau)$ relating a subject $s$ and an object $o$ via a relation label $p$ at time $\tau$, where $\tau$ could be a time point or time interval. Temporal knowledge graphs may exhibit static temporal patterns at distinct points in time and dynamic temporal patterns between different timestamps. In order to learn a rich set of static and dynamic temporal patterns and apply them for inference, several embedding approaches have been suggested in the literature. However, as most of them resort to single underlying embedding spaces, their capability to model all kinds of temporal patterns was severely limited by having to adhere to the geometric property of their one embedding space. We lift this limitation by an embedding approach that maps temporal facts into a product space of several heterogeneous geometric subspaces with distinct geometric properties, i.e.\ Complex, Dual, and Split-complex spaces. In addition, we propose a temporal-geometric attention mechanism to integrate information from different geometric subspaces conveniently according to the captured relational and temporal information. Experimental results on standard temporal benchmark datasets favorably evaluate our approach against state-of-the-art models.
翻訳日:2023-12-27 20:36:20 公開日:2023-12-25
# アセンブラ間の共生成空間によるスケーラブルなフラクチャーアセンブリ

Scalable Geometric Fracture Assembly via Co-creation Space among Assemblers ( http://arxiv.org/abs/2312.12340v3 )

ライセンス: Link先を確認
Ruiyuan Zhang and Jiaxiang Liu and Zexi Li and Hao Dong and Jie Fu and Chao Wu(参考訳) 幾何学的破壊組立は考古学と3次元コンピュータビジョンにおいて挑戦的な実践課題である。 従来の手法では、意味情報に基づいたフラグメントの組み立てのみに重点を置いており、効果的に組み立てられるオブジェクトの量が制限されていた。 したがって, 意味情報に頼らずに, 幾何学的フラクチャーアセンブリのためのスケーラブルなフレームワークを開発する必要がある。 意味情報のない幾何的骨折を組み立てることの有効性を向上させるために, 徐々に, 曖昧に組み立てることのできる複数のアセンブラからなる共創空間を提案する。 さらに, フラクチャー組立過程における衝突問題に対処し, 結果を高めるために, 幾何に基づく衝突損失という新たな損失関数を導入する。 私たちのフレームワークは、既存の最先端フレームワークと比較して、partnetとbreaking bad datasetの両方で優れたパフォーマンスを示しています。 大規模実験と定量的比較により,線形計算複雑性,抽象化の強化,一般化の改善を特徴とするフレームワークの有効性が示された。 私たちのコードはhttps://github.com/ruiyuan-zhang/ccsで公開されています。

Geometric fracture assembly presents a challenging practical task in archaeology and 3D computer vision. Previous methods have focused solely on assembling fragments based on semantic information, which has limited the quantity of objects that can be effectively assembled. Therefore, there is a need to develop a scalable framework for geometric fracture assembly without relying on semantic information. To improve the effectiveness of assembling geometric fractures without semantic information, we propose a co-creation space comprising several assemblers capable of gradually and unambiguously assembling fractures. Additionally, we introduce a novel loss function, i.e., the geometric-based collision loss, to address collision issues during the fracture assembly process and enhance the results. Our framework exhibits better performance on both PartNet and Breaking Bad datasets compared to existing state-of-the-art frameworks. Extensive experiments and quantitative comparisons demonstrate the effectiveness of our proposed framework, which features linear computational complexity, enhanced abstraction, and improved generalization. Our code is publicly available at https://github.com/Ruiyuan-Zhang/CCS.
翻訳日:2023-12-27 20:34:10 公開日:2023-12-25
# 量子ドットから放出される光子対の偏光絡みに対する空洞媒介過程の影響

Effects of cavity-mediated processes on the polarization entanglement of photon pairs emitted from quantum dots ( http://arxiv.org/abs/2312.12054v2 )

ライセンス: Link先を確認
Mukesh Kumar Samal, Divya Mishra and Parvendra Kumar(参考訳) 半導体量子ドットはオンデマンドの絡み合った光子対の最良の源の1つである。 しかし、エンタングルメントの程度は一般的に励起子状態の微細構造分割によって制限される。 本稿では,2光子励起と共振器支援による2光子放出の下での偏光結合光子対の生成について理論的に検討する。 共振器と励起パルスとの結合が3つの異なる方法で絡み合いの程度を減少させることを示す。 第一に、強い結合状態において、キャビティは水平および垂直に偏極した励起子状態の不等なac-starkシフトを導入し、これにより励起子状態が効果的に分裂する。 第二に、弱いカップリング状態であっても励起子状態間の交差結合を誘導し、2光子状態が生成する。 最後に、キャビティモードのより高い励起状態は、絡み合いの低減にも寄与する。 したがって、ここで考慮された設定では、放出光子の効率的な収集に一般的に必要とされるキャビティカップリングは、弱結合と強結合の両方において絡み合いを劣化させる。

Semiconductor quantum dots are among the best sources of on-demand entangled photon pairs. The degree of entanglement, however, is generally limited by the fine structure splitting of exciton states. In this paper, we theoretically investigate the generation of polarisation-entangled photon pairs under two-photon excitation and cavity-assisted two-photon emission, both in the weak and strong cavity coupling regimes. We demonstrate and clarify that cavity coupling together with an excitation pulse reduces the degree of entanglement in three different ways. Firstly, in a strong coupling regime, cavity introduces the unequal ac-Stark shift of horizontally and vertically polarised exciton states, which results in the effective splitting of exciton states. Secondly, it induces the cross-coupling between the exciton states even in the weak coupling regime, causing the creation of unfavorable two-photon states. Finally, higher excited states of the cavity modes also contribute to the reduction of entanglement. Therefore, in the setting considered here, cavity coupling, which is generally required for the efficient collection of emitted photons, degrades the entanglement both in weak and strong coupling regimes.
翻訳日:2023-12-27 20:33:30 公開日:2023-12-25
# 階層的トポロジー同型専門知識埋め込みグラフコントラスト学習

Hierarchical Topology Isomorphism Expertise Embedded Graph Contrastive Learning ( http://arxiv.org/abs/2312.14222v2 )

ライセンス: Link先を確認
Jiangmeng Li, Yifan Jin, Hang Gao, Wenwen Qiang, Changwen Zheng, Fuchun Sun(参考訳) グラフコントラスト学習(gcl)は、対のコントラスト損失を最小化し、潜在空間の否定的な特徴を区別しながら、ポジティブな特徴を整合させることを目的としている。 識別的非教師なしグラフ表現学習アプローチの具体例として、gclは様々なグラフベンチマークで印象的な成功を収めている。 しかし、そのようなアプローチはグラフの位相同型を認識できないため、比較的均質なノード特徴を持つグラフは十分に判別できない。 古典的なグラフトポロジ認識作業を再考することにより、対応する専門知識が直感的にGCL法を補完することを明らかにする。 そこで我々は,GCLモデルに知識蒸留を導入し,グラフ層とサブグラフ層を含む階層的トポロジー同型専門知識を学習する,新しい階層的トポロジー同型専門知識グラフコントラスト学習を提案する。 さらに,提案手法はプラグアンドプレイの特徴を持ち,提案手法が複数の最先端GCLモデルに対して普遍的であることを実証的に示す。 さらに,従来のgcl法と比較してベイズ分類誤差の上限値がより強くなることを示すため,固体理論的解析を行った。 実世界のグラフ表現学習実験において,提案手法は非教師付き表現学習環境において0.23%,転送学習環境において0.43%の精度で最先端の手法に勝っている。 私たちのコードはhttps://github.com/jyf123/HTMLで利用可能です。

Graph contrastive learning (GCL) aims to align the positive features while differentiating the negative features in the latent space by minimizing a pair-wise contrastive loss. As the embodiment of an outstanding discriminative unsupervised graph representation learning approach, GCL achieves impressive successes in various graph benchmarks. However, such an approach falls short of recognizing the topology isomorphism of graphs, resulting in that graphs with relatively homogeneous node features cannot be sufficiently discriminated. By revisiting classic graph topology recognition works, we disclose that the corresponding expertise intuitively complements GCL methods. To this end, we propose a novel hierarchical topology isomorphism expertise embedded graph contrastive learning, which introduces knowledge distillations to empower GCL models to learn the hierarchical topology isomorphism expertise, including the graph-tier and subgraph-tier. On top of this, the proposed method holds the feature of plug-and-play, and we empirically demonstrate that the proposed method is universal to multiple state-of-the-art GCL models. The solid theoretical analyses are further provided to prove that compared with conventional GCL methods, our method acquires the tighter upper bound of Bayes classification error. We conduct extensive experiments on real-world benchmarks to exhibit the performance superiority of our method over candidate GCL methods, e.g., for the real-world graph representation learning experiments, the proposed method beats the state-of-the-art method by 0.23% on unsupervised representation learning setting, 0.43% on transfer learning setting. Our code is available at https://github.com/jyf123/HTML.
翻訳日:2023-12-27 20:22:13 公開日:2023-12-25
# オープンセット画像認識に関する調査

A Survey on Open-Set Image Recognition ( http://arxiv.org/abs/2312.15571v1 )

ライセンス: Link先を確認
Jiayin Sun and Qiulei Dong(参考訳) Open-set Image Recognition(OSR)は、既知のクラスサンプルの分類と、テストセット内の未知クラスサンプルの識別の両方を目的としている。 近年、オープンセット認識手法は、モデルトレーニングのためのオープンワールドに関する全体的情報を得ることが困難であるため、ますます注目を集めている。 本稿では,最近のOSR手法の最近の発展を概説し,近年の2~3年間での急速な発展を考える。 具体的には,まず,既存のdnnベースのosr手法を包括的に検討する新しい分類法を提案する。 次に,標準データセット設定とクロスデータセット設定の両方において,粗粒度データセットと細粒度データセットの両方において,典型的なosr法と最先端のosr法の性能を比較する。 最後に,このコミュニティにおけるオープンイシューと今後の方向性について論じる。

Open-set image recognition (OSR) aims to both classify known-class samples and identify unknown-class samples in the testing set, which supports robust classifiers in many realistic applications, such as autonomous driving, medical diagnosis, security monitoring, etc. In recent years, open-set recognition methods have achieved more and more attention, since it is usually difficult to obtain holistic information about the open world for model training. In this paper, we aim to summarize the up-to-date development of recent OSR methods, considering their rapid development in recent two or three years. Specifically, we firstly introduce a new taxonomy, under which we comprehensively review the existing DNN-based OSR methods. Then, we compare the performances of some typical and state-of-the-art OSR methods on both coarse-grained datasets and fine-grained datasets under both standard-dataset setting and cross-dataset setting, and further give the analysis of the comparison. Finally, we discuss some open issues and possible future directions in this community.
翻訳日:2023-12-27 17:43:06 公開日:2023-12-25
# 周期変調量子系における2つのディッケ状態の絡み合い

Entangling two Dicke states in a periodic modulated quantum system ( http://arxiv.org/abs/2312.15568v1 )

ライセンス: Link先を確認
Wuji Zhang, Ruifang Wu, Chunfang Sun, Chunfeng Wu and Gangcheng Wang(参考訳) 周期変調量子系における2つのディック状態の絡み合う理論的アプローチを提案する。 共振器に不均一に結合する2つのクビットアンサンブルを考えることにより、各クビットアンサンブルの励起数に非線形にエネルギー準位が依存する実効ハミルトニアンを導出することができる。 より単純化された有効ハミルトニアンは、適切な駆動パラメータと初期状態を選択することで得られる。 効果的なハミルトニアンの動的進化に基づいて、ディッケ状態遷移を選択的に達成し、エンタングルディッケ状態を生成することができる。 特殊な場合には、射影的偶発的猫計測を行うことにより、アンサンブルな絡み合い状態を得ることができる。 ガウスソフトな時間変調を実装することで、相互作用におけるオフ共鳴寄与を効果的に抑制し、目標状態の忠実性を高めることができる。 さらに、ホルシュタイン-プリマコフ変換を用いて、熱力学的極限における共振器-センブル結合系を考察し、絡み合ったマグノン状態の生成について検討する。 さらに,周波数変調によるマグノン正午状態の生成法を提案し,目標状態の忠実性に及ぼす非一貫性の影響について検討する。

We propose a theoretical approach for entangling two Dicke states in a periodic modulated quantum system. By considering two qubit ensembles that are nonuniformly coupled to a common resonator, we can derive an effective Hamiltonian whose energy levels depend nonlinearly on the excitation number of each qubit ensemble. More simplified effective Hamiltonian can be obtained by selecting appropriate driving parameters and initial state. Based on the dynamic evolution of the effective Hamiltonian, we can selectively achieve Dicke state transitions and generate entangled Dicke states controllably. For a special case, we can obtain ensemble-ensemble entangled states by performing a projective even-odd cat measurement. By implementing Gaussian soft temporal modulation, we can effectively suppress off-resonant contributions in the interaction and enhance the fidelity of target states. Furthermore, by utilizing the Holstein-Primakoff transformation, we study the resonator-ensemble coupling system in the thermodynamic limit and investigate the generation of entangled magnon states. Additionally, we propose a scheme of creating magnon NOON states through frequency modulation and study the influence of decoherence on the fidelity of target states.
翻訳日:2023-12-27 17:42:49 公開日:2023-12-25
# 画像による持ち上げ --正確な3次元ポーズ推定のための画像手がかりを活用する

Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose Estimation ( http://arxiv.org/abs/2312.15636v1 )

ライセンス: Link先を確認
Feng Zhou, Jianqin Yin, Peiyang Li(参考訳) 2dポーズからのリフト」法は、2dポーズ推定器の強力な視覚解析能力のため、3dポーズ推定(3dhpe)に支配的なアプローチである。 広く知られているのは、2dポーズのみから推定する場合の深さ曖昧性問題であり、1つの2dポーズを複数の3dポーズにマッピングすることができる。 直感的には、画像の豊かな意味とテクスチャ情報はより正確な「リフト」手順に寄与する。 しかし、既存の研究は2つの大きな課題に直面している。 まず, 3次元モーションキャプチャデータセット内の画像データの分布は, 作業環境のため狭すぎるため, 画像情報を用いて学習した手法の一般化能力が低下する。 第二に、画像情報を活用する効果的な戦略が欠如している。 本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。 そこで我々は,高度なフレームワークを提案する。 具体的には、フレームワークは2つのステージで構成される。 まず、キーポイントがすべてのイメージパッチから有益な機能をクエリし、選択できるようにします。 重要でない背景特徴に対するキーポイントの注意を減らすために,新たなポーズ誘導トランスフォーマー層を設計し,重要でない画像パッチへの更新を適応的に制限する。 次に、アダプティブな機能選択モジュールを設計することで、特徴マップから重要なイメージパッチを除外します。 第2段階では、キーポイントが重要な画像の特徴をさらに強調できるようにします。 このプログレッシブラーニングアプローチは、重要な画像特徴のさらなるトレーニングを妨げる。 実験結果から,本モデルはHuman3.6MデータセットとMPI-INF-3DHPデータセットの両方で最先端の性能を達成できた。

The "lifting from 2D pose" method has been the dominant approach to 3D Human Pose Estimation (3DHPE) due to the powerful visual analysis ability of 2D pose estimators. Widely known, there exists a depth ambiguity problem when estimating solely from 2D pose, where one 2D pose can be mapped to multiple 3D poses. Intuitively, the rich semantic and texture information in images can contribute to a more accurate "lifting" procedure. Yet, existing research encounters two primary challenges. Firstly, the distribution of image data in 3D motion capture datasets is too narrow because of the laboratorial environment, which leads to poor generalization ability of methods trained with image information. Secondly, effective strategies for leveraging image information are lacking. In this paper, we give new insight into the cause of poor generalization problems and the effectiveness of image features. Based on that, we propose an advanced framework. Specifically, the framework consists of two stages. First, we enable the keypoints to query and select the beneficial features from all image patches. To reduce the keypoints attention to inconsequential background features, we design a novel Pose-guided Transformer Layer, which adaptively limits the updates to unimportant image patches. Then, through a designed Adaptive Feature Selection Module, we prune less significant image patches from the feature map. In the second stage, we allow the keypoints to further emphasize the retained critical image features. This progressive learning approach prevents further training on insignificant image features. Experimental results show that our model achieves state-of-the-art performance on both the Human3.6M dataset and the MPI-INF-3DHP dataset.
翻訳日:2023-12-27 17:32:20 公開日:2023-12-25
# 電子健康記録における依存知識グラフの推測

Inference of Dependency Knowledge Graph for Electronic Health Records ( http://arxiv.org/abs/2312.15611v1 )

ライセンス: Link先を確認
Zhiwei Xu, Ziming Gan, Doudou Zhou, Shuting Shen, Junwei Lu, Tianxi Cai(参考訳) 高次元電子健康記録(EHR)データの効果的な分析は、医療研究にかなりの可能性を秘めている。 効率的な特徴選択を可能にする知識グラフ(kg)による予測モデリングを用いることで、統計的効率と解釈可能性の両方を高めることができる。 kgを構築するための様々な方法が登場しているが、既存の技術では、特にプライバシー上の懸念から患者レベルのehrデータの利用が制限されるシナリオにおいて、エンティティ間のリンクの存在に関する統計的確実性が欠如している。 本稿では, \cite{arora2016latent} によって提案された動的対数線形トピックモデルに基づく統計的保証付きスパース kg を導出するための最初の推論フレームワークを提案する。 このモデルでは、KG埋め込みは経験的ポイントワイド相互情報行列上で特異値分解を行い、スケーラブルな解を提供する。 次に、kg低ランク推定器の入出力漸近正規性を確立し、タイプiの誤差を制御したスパースグラフエッジの回復を可能にした。 本研究は,既存の研究における重要なギャップである低ランク時間依存モデルの下での非線形統計量に関する,未熟な統計的推論領域に一意的に取り組んだものである。 そこで本研究では,本手法を実世界のehrデータに適用し,臨床kgsの構築と臨床特徴の埋め込みを行う。

The effective analysis of high-dimensional Electronic Health Record (EHR) data, with substantial potential for healthcare research, presents notable methodological challenges. Employing predictive modeling guided by a knowledge graph (KG), which enables efficient feature selection, can enhance both statistical efficiency and interpretability. While various methods have emerged for constructing KGs, existing techniques often lack statistical certainty concerning the presence of links between entities, especially in scenarios where the utilization of patient-level EHR data is limited due to privacy concerns. In this paper, we propose the first inferential framework for deriving a sparse KG with statistical guarantee based on the dynamic log-linear topic model proposed by \cite{arora2016latent}. Within this model, the KG embeddings are estimated by performing singular value decomposition on the empirical pointwise mutual information matrix, offering a scalable solution. We then establish entrywise asymptotic normality for the KG low-rank estimator, enabling the recovery of sparse graph edges with controlled type I error. Our work uniquely addresses the under-explored domain of statistical inference about non-linear statistics under the low-rank temporal dependent models, a critical gap in existing research. We validate our approach through extensive simulation studies and then apply the method to real-world EHR data in constructing clinical KGs and generating clinical feature embeddings.
翻訳日:2023-12-27 17:31:54 公開日:2023-12-25
# 適合課題に不可欠な幾何学的固有長の学習に向けて

Towards Learning Geometric Eigen-Lengths Crucial for Fitting Tasks ( http://arxiv.org/abs/2312.15610v1 )

ライセンス: Link先を確認
Yijia Weng, Kaichun Mo, Ruoxi Shi, Yanchao Yang, Leonidas J. Guibas(参考訳) 非常に低次元であるが重要な幾何固有長は幾何的タスクの成功を決定することが多い。 例えば、キャビネットの棚の間に収まるかどうかを測るためには、物体の高さが重要であり、戸口から移動しようとするとき、ソファの幅が不可欠である。 人間はそのような重要な幾何学的固有長を一般的な意味で具現化してきた。 しかし、このような重要な幾何学的量を自動的に発見する類似の能力を備えた学習システムが実現可能かどうかについては、いまだ不明かつ未解明である。 そこで本研究では,本問題に対する新しい学習問題を初めて定式化し,提案し,課題,データ,評価指標を含むベンチマークスイートを構築した。 提案する学習問題に対するテストベッドとして,一般的な適合タスクのファミリーに焦点をあてる。 提案手法を探索し,試行錯誤の結果から固有長学習の実現可能性を示す。 また,より正確な固有長測定のための幾何学的接地を試み,複数のタスクにわたる学習固有長の再利用可能性について検討した。 私たちの研究は重要な幾何学的固有長を学ぶための最初の探索的なステップであり、この重要で未熟な問題に取り組むための将来の研究を刺激できることを願っています。

Some extremely low-dimensional yet crucial geometric eigen-lengths often determine the success of some geometric tasks. For example, the height of an object is important to measure to check if it can fit between the shelves of a cabinet, while the width of a couch is crucial when trying to move it through a doorway. Humans have materialized such crucial geometric eigen-lengths in common sense since they are very useful in serving as succinct yet effective, highly interpretable, and universal object representations. However, it remains obscure and underexplored if learning systems can be equipped with similar capabilities of automatically discovering such key geometric quantities from doing tasks. In this work, we therefore for the first time formulate and propose a novel learning problem on this question and set up a benchmark suite including tasks, data, and evaluation metrics for studying the problem. We focus on a family of common fitting tasks as the testbed for the proposed learning problem. We explore potential solutions and demonstrate the feasibility of learning eigen-lengths from simply observing successful and failed fitting trials. We also attempt geometric grounding for more accurate eigen-length measurement and study the reusability of the learned eigen-lengths across multiple tasks. Our work marks the first exploratory step toward learning crucial geometric eigen-lengths and we hope it can inspire future research in tackling this important yet underexplored problem.
翻訳日:2023-12-27 17:31:32 公開日:2023-12-25
# 多層プライバシー保護によるフェデレーション学習成果予測

Federated learning-outcome prediction with multi-layer privacy protection ( http://arxiv.org/abs/2312.15608v1 )

ライセンス: Link先を確認
Yupei Zhang, Yuxin Li, Yifei Wang, Shuangshuang Wei, Yunan Xu, and Xuequn Shang(参考訳) 学習成果予測(Learning-outcome Prediction,LOP)は、教育ルートにおける長年にわたる重要な問題である。 多くの研究が効果的なモデルの開発に寄与し、プライバシー保護の問題により、データ不足や様々な機関への低一般化に苦しめられている。 そこで本研究では,地域クライアントのプライベートデータを保存し,グローバル一般化モデルを介して他者と通信するフェデレーション学習(fl)フレームワークを活用することで,fecmapと呼ばれる分散グレード予測モデルを提案する。 FecMapは、グローバル機能に対してローカル機能を明示的に学習するローカルサブスペース学習(LSL)と、モデル共有機能や未使用の機能を含むプライベート機能を階層的に保護するマルチレイヤプライバシ保護(MPP)を、各機関毎のLOPで高いパフォーマンスのクライアント固有の分類器を実現するために検討している。 FecMapは、グローバル部分、ローカル部分、クライアントの分類ヘッドで構成されるローカルニューラルネットワークをトレーニングし、サーバ上のクライアントからグローバル部分の平均化によって、クライアント上に分散されたすべてのデータセットで反復的に実行される。 FecMapモデルを評価するために,工学専攻の学生記録の高次学習データセットを3つ収集した。 実験結果から,FecMapは提案したLSLとMPPの恩恵を受け,LOPのタスクにおいて,最先端のモデルと比較して安定した性能を実現していることがわかった。 この研究は、学習分析タスクにおけるフェデレーション学習の利用を新たに試み、プライバシー保護によるパーソナライズされた教育を促進する道を開く可能性がある。

Learning-outcome prediction (LOP) is a long-standing and critical problem in educational routes. Many studies have contributed to developing effective models while often suffering from data shortage and low generalization to various institutions due to the privacy-protection issue. To this end, this study proposes a distributed grade prediction model, dubbed FecMap, by exploiting the federated learning (FL) framework that preserves the private data of local clients and communicates with others through a global generalized model. FecMap considers local subspace learning (LSL), which explicitly learns the local features against the global features, and multi-layer privacy protection (MPP), which hierarchically protects the private features, including model-shareable features and not-allowably shared features, to achieve client-specific classifiers of high performance on LOP per institution. FecMap is then achieved in an iteration manner with all datasets distributed on clients by training a local neural network composed of a global part, a local part, and a classification head in clients and averaging the global parts from clients on the server. To evaluate the FecMap model, we collected three higher-educational datasets of student academic records from engineering majors. Experiment results manifest that FecMap benefits from the proposed LSL and MPP and achieves steady performance on the task of LOP, compared with the state-of-the-art models. This study makes a fresh attempt at the use of federated learning in the learning-analytical task, potentially paving the way to facilitating personalized education with privacy protection.
翻訳日:2023-12-27 17:31:09 公開日:2023-12-25
# 深層強化学習に基づく交通シーンのターゲット検出アルゴリズム

A Target Detection Algorithm in Traffic Scenes Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2312.15606v1 )

ライセンス: Link先を確認
Xinyu Ren, Ruixuan Wang(参考訳) 本研究では,実世界の交通物体を正確に検出するために,深層強化学習を用いた新しいアクティブ検出モデルを提案する。 このモデルはLSTM-CNNに基づく深いQ-ネットワークを用いており、環境の効率的な特徴抽出によるトップダウンアプローチを実装することにより、ターゲットゾーンを特定のトラフィックオブジェクトのカテゴリに特定・調整する。 このモデルは、歴史的および現在の行動と観察を統合し、包括的な分析を行う。 状態空間と報酬関数の設計は、モデルがより少ないステップでタスクを完了できるようにするための時間ステップの影響を考慮している。 実験では、このモデルの精度を実証し、信号機の位置と速度制限標識の精度と性能を示した。 本研究は,交通関連アプリケーションにおける深層強化学習に基づく能動検出モデルの有効性と可能性を強調し,その頑健な検出能力と有望な性能を裏付けるものである。

This research presents a novel active detection model utilizing deep reinforcement learning to accurately detect traffic objects in real-world scenarios. The model employs a deep Q-network based on LSTM-CNN that identifies and aligns target zones with specific categories of traffic objects through implementing a top-down approach with efficient feature extraction of the environment. The model integrates historical and current actions and observations to make a comprehensive analysis. The design of the state space and reward function takes into account the impact of time steps to enable the model to complete the task in fewer steps. Tests conducted demonstrate the model's proficiency, exhibiting exceptional precision and performance in locating traffic signal lights and speed limit signs. The findings of this study highlight the efficacy and potential of the deep reinforcement learning-based active detection model in traffic-related applications, underscoring its robust detection abilities and promising performance.
翻訳日:2023-12-27 17:30:39 公開日:2023-12-25
# 大規模言語モデルファインチューニングのための分割合成フレームワーク

A Split-and-Privatize Framework for Large Language Model Fine-Tuning ( http://arxiv.org/abs/2312.15603v1 )

ライセンス: Link先を確認
Xicong Shen, Yang Liu, Huiqi Liu, Jue Hong, Bing Duan, Zirui Huang, Yunlong Mao, Ye Wu, Di Wu(参考訳) ファインチューニングは、トレーニング済みの言語モデルを下流のシナリオに適応するための重要なテクニックである。 パラメータ効率の細かいチューニングでは、下流のデータセット上で少数のモジュールだけがトレーニングされ、残りのトレーニング済みモデルを凍結して計算リソースを節約する。 近年、MaaS(Model-as-a-Service)として一般的な製品化形式が登場し、ベンダーは豊富なトレーニング済み言語モデル、サーバリソース、コア関数を提供し、顧客は独自のプライベートデータセットでワンストップMaaSにアクセスすることで、カスタマイズされたモデルを微調整、デプロイ、実行することができる。 本稿では、MaaSの微調整におけるモデルとデータプライバシ漏洩リスクを特定し、既存の分割学習アーキテクチャを適用してプライバシー問題を緩和するSplit-and-Privatize(SAP)フレームワークを提案する。 提案するSAPフレームワークは,実験によって十分に検討されており,Stanford Sentiment Treebankデータセットのモデルパフォーマンス劣化の1%を犠牲にして,経験的プライバシを62%向上させることができる。

Fine-tuning is a prominent technique to adapt a pre-trained language model to downstream scenarios. In parameter-efficient fine-tuning, only a small subset of modules are trained over the downstream datasets, while leaving the rest of the pre-trained model frozen to save computation resources. In recent years, a popular productization form arises as Model-as-a-Service (MaaS), in which vendors provide abundant pre-trained language models, server resources and core functions, and customers can fine-tune, deploy and invoke their customized model by accessing the one-stop MaaS with their own private dataset. In this paper, we identify the model and data privacy leakage risks in MaaS fine-tuning, and propose a Split-and-Privatize (SAP) framework, which manage to mitigate the privacy issues by adapting the existing split learning architecture. The proposed SAP framework is sufficiently investigated by experiments, and the results indicate that it can enhance the empirical privacy by 62% at the cost of 1% model performance degradation on the Stanford Sentiment Treebank dataset.
翻訳日:2023-12-27 17:30:24 公開日:2023-12-25
# マルチエージェント強化学習のためのコンテキストアウェア通信

Context-aware Communication for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2312.15600v1 )

ライセンス: Link先を確認
Xinran Li, Jun Zhang(参考訳) マルチエージェント強化学習(MARL)における効果的なコミュニケーションプロトコルは,協調の促進とチームパフォーマンスの向上に不可欠である。 コミュニケーションを活用するために、以前の多くの研究は、ローカル情報を単一のメッセージに圧縮し、すべての到達可能なエージェントにブロードキャストすることを提案した。 しかし、この単純なメッセージングメカニズムは、特に帯域幅に制限のあるシナリオにおいて、個々のエージェントに適切な、クリティカルで、関連する情報を提供できない可能性がある。 これは、異なるエージェントにパーソナライズされたメッセージを提供することを目的として、marlのコンテキスト対応通信スキームを開発する動機となります。 通信プロトコルCACOMは2つの段階から構成される。 第1段階では、エージェントが放送形式で粗い表現を交換し、第2ステージのコンテキストを提供する。 その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。 さらに,メッセージ量子化のための学習ステップサイズ量子化(lsq)手法を用いて通信オーバーヘッドを削減する。 CACOMの有効性を評価するため,アクター批判と価値に基づくMARLアルゴリズムを併用する。 協調型ベンチマークタスクにおける実験結果から,CACOMは通信制約シナリオ下でのベースラインよりも明らかな性能向上を提供することが示された。

Effective communication protocols in multi-agent reinforcement learning (MARL) are critical to fostering cooperation and enhancing team performance. To leverage communication, many previous works have proposed to compress local information into a single message and broadcast it to all reachable agents. This simplistic messaging mechanism, however, may fail to provide adequate, critical, and relevant information to individual agents, especially in severely bandwidth-limited scenarios. This motivates us to develop context-aware communication schemes for MARL, aiming to deliver personalized messages to different agents. Our communication protocol, named CACOM, consists of two stages. In the first stage, agents exchange coarse representations in a broadcast fashion, providing context for the second stage. Following this, agents utilize attention mechanisms in the second stage to selectively generate messages personalized for the receivers. Furthermore, we employ the learned step size quantization (LSQ) technique for message quantization to reduce the communication overhead. To evaluate the effectiveness of CACOM, we integrate it with both actor-critic and value-based MARL algorithms. Empirical results on cooperative benchmark tasks demonstrate that CACOM provides evident performance gains over baselines under communication-constrained scenarios.
翻訳日:2023-12-27 17:30:00 公開日:2023-12-25
# 量子物理学における弱測定と古典波光学における解析位相検索の関係について

On the connection between weak measurement in quantum physics and analytic phase-retrieval in classical wave optics ( http://arxiv.org/abs/2312.15597v1 )

ライセンス: Link先を確認
Nobuharu Nakajima(参考訳) 弱い測定の物理的解釈は多くの議論の対象となっている。 弱い測定で現れる異常な現象や結果は、本質的に測定中の量子系の位相と関連していることが知られている。 位相の考察は、その物理的解釈を明らかにするために重要である。 古典的な波動光学では、波動関数の位相を計測または取得する方法が長い間研究されてきた。 ここでは、これらの手法の1つ、全関数の性質に基づく解析位相の探索が、量子物理学における弱い測定と密接な関係を持つことを示す。 量子系と同じ数学的形式を持つ2つのエンブレマティックな光学的弱測定値に対する接続を説明する: 1つは複屈折結晶における偏光変位の弱測定システム、もう1つはポインターに弱結合して波動関数を直接測定するシステムである。 これらの2つの系において,偏光の前・後選択は,解析相検索で用いられるものと類似したフィルタリング効果をもたらすことを示す。

The physical interpretation of weak measurements has been the subject of much debate. It is known that anomalous phenomena and results that appear in weak measurements are essentially related to the phase of the quantum system being measured. Consideration of the phase is important to clarify its physical interpretation. In classical wave optics, there has long been studies on methods of measuring or retrieving the phase of a wave function. We here present that one of those methods, the analytic phase retrieval based on the properties of entire functions, has a close connection with weak measurements in quantum physics. We explain such a connection for two emblematic optical weak-measurements that have the same mathematical formalism as quantum systems: one is a system for weak measurements of polarized light displacement in a birefringent crystal, and the other is a system for the direct measurement of a wave function by weakly coupling it to a pointer. In those two systems, we show that the pre- and post-selection of polarized light provides a filtering effect similar to that utilized in the analytic phase retrieval.
翻訳日:2023-12-27 17:29:38 公開日:2023-12-25
# ゼロ膨張バンディット

Zero-Inflated Bandits ( http://arxiv.org/abs/2312.15595v1 )

ライセンス: Link先を確認
Haoyu Wei, Runzhe Wan, Lei Shi, Rui Song(参考訳) 多くの実際のバンディットの応用は、ゼロではない報酬が少なく、学習速度が遅くなる。 問題固有の構造を利用する注意深い分布モデリングは、統計文献における推定効率に極めて重要であるが、バンディットでは未検討である。 このギャップを埋めるために,ゼロ・インフレーション分布と呼ばれる古典的な半パラメトリック分布をモデルとしたゼロ・インフレーション・バンディットの研究を開始する。 我々は,この特定の構造に対してuper confidence bound (ucb) と thompson sampling (ts) アルゴリズムを慎重に設計する。 我々のアルゴリズムは、非常に一般的な報酬分布のクラスに適合し、典型的なガウス以下の要件よりもかなり厳密な尾仮定の下で機能する。 理論的には、多武装バンディットに対するUTBアルゴリズムとTSアルゴリズムの両方の後悔境界を導出し、報奨分布がガウス以下の場合の速度-最適後悔を達成できることを示す。 提案手法の優れた経験的性能は, 広範な数値実験によって示される。

Many real applications of bandits have sparse non-zero rewards, leading to slow learning rates. A careful distribution modeling that utilizes problem-specific structures is known as critical to estimation efficiency in the statistics literature, yet is under-explored in bandits. To fill the gap, we initiate the study of zero-inflated bandits, where the reward is modeled as a classic semi-parametric distribution called zero-inflated distribution. We carefully design Upper Confidence Bound (UCB) and Thompson Sampling (TS) algorithms for this specific structure. Our algorithms are suitable for a very general class of reward distributions, operating under tail assumptions that are considerably less stringent than the typical sub-Gaussian requirements. Theoretically, we derive the regret bounds for both the UCB and TS algorithms for multi-armed bandit, showing that they can achieve rate-optimal regret when the reward distribution is sub-Gaussian. The superior empirical performance of the proposed methods is shown via extensive numerical studies.
翻訳日:2023-12-27 17:29:22 公開日:2023-12-25
# dsnet:ニュートラルキャリブレーションによる音声感情認識のための不連続siameseネットワーク

DSNet: Disentangled Siamese Network with Neutral Calibration for Speech Emotion Recognition ( http://arxiv.org/abs/2312.15593v1 )

ライセンス: Link先を確認
Chengxin Chen, Pengyuan Zhang(参考訳) 深層学習に基づく音声感情認識(SER)における永続的な課題の1つは、感情非関連因子(例えば、話者や音声の変動)を無意識に符号化することである。 本稿では,よりロバストで説明可能なserモデルの要求を満たすために,中性キャリブレーションを備えた不連続なシャムネットワークであるdsnetを提案する。 具体的には、高次表現を2つの異なる部分空間に明示的に投影する直交的特徴分散モジュールを導入する。 その後,一つの部分空間に十分な感情非関連情報を捕捉するよう促す新しい中性キャリブレーション機構を提案する。 このようにして、他方は音声信号内の感情関連情報を分離し強調することができる。 2つの人気のあるベンチマークデータセットの実験結果は、話者非依存SERの様々な最先端手法よりもDSNetの方が優れていることを示す。

One persistent challenge in deep learning based speech emotion recognition (SER) is the unconscious encoding of emotion-irrelevant factors (e.g., speaker or phonetic variability), which limits the generalization of SER in practical use. In this paper, we propose DSNet, a Disentangled Siamese Network with neutral calibration, to meet the demand for a more robust and explainable SER model. Specifically, we introduce an orthogonal feature disentanglement module to explicitly project the high-level representation into two distinct subspaces. Later, we propose a novel neutral calibration mechanism to encourage one subspace to capture sufficient emotion-irrelevant information. In this way, the other one can better isolate and emphasize the emotion-relevant information within speech signals. Experimental results on two popular benchmark datasets demonstrate the superiority of DSNet over various state-of-the-art methods for speaker-independent SER.
翻訳日:2023-12-27 17:29:02 公開日:2023-12-25
# プライバシー保護型ニューラルグラフデータベース

Privacy-Preserving Neural Graph Databases ( http://arxiv.org/abs/2312.15591v1 )

ライセンス: Link先を確認
Qi Hu, Haoran Li, Jiaxin Bai, Yangqiu Song(参考訳) ビッグデータと急速に進化する情報システムの時代、効率的で正確なデータ検索がますます重要になっている。 グラフデータベース(グラフDB)とニューラルネットワークの強みを組み合わせて、グラフ構造化データの効率的な保存、検索、分析を可能にする強力なパラダイムとして、NGDBが登場した。 ニューラルネットワーク埋め込みストレージと複雑なニューラルネットワーク論理クエリ応答の使用は、ngdbに一般化能力を提供する。 グラフが不完全である場合、潜在パターンと表現を抽出することにより、ニューラルネットワークはグラフ構造のギャップを埋め、隠れた関係を明らかにし、正確なクエリ応答を可能にする。 それでも、データベースにさらなるプライバシーリスクをもたらすため、この機能には固有のトレードオフが伴う。 悪意のある攻撃者は、1950年より前にチューリング賞受賞者が1940年以降に誕生した場所を比較し、おそらくチューリング賞受賞者のHintonの居住地を暴露するなど、よく設計された組合せクエリを使ってデータベース内のより機密性の高い情報を推測することができる。 本研究は,グラフ埋め込みにおけるプライバシ保護に着想を得て,NGDBにおけるプライバシ漏洩のリスクを軽減するために,プライバシ保存型ニューラルネットワーク(P-NGDB)を提案する。 学習段階では,複数の無意味な問合せを組み合わせることで,機密情報の推測の困難さを増大させるため,ngdbに識別不能な回答を強制的に生成させる手法を提案する。 3つのデータセットの広範な実験結果から、p-ngdbはグラフデータベース内のプライベート情報を効果的に保護し、クエリに対して高品質なパブリック回答を配信できることが分かる。

In the era of big data and rapidly evolving information systems, efficient and accurate data retrieval has become increasingly crucial. Neural graph databases (NGDBs) have emerged as a powerful paradigm that combines the strengths of graph databases (graph DBs) and neural networks to enable efficient storage, retrieval, and analysis of graph-structured data. The usage of neural embedding storage and complex neural logical query answering provides NGDBs with generalization ability. When the graph is incomplete, by extracting latent patterns and representations, neural graph databases can fill gaps in the graph structure, revealing hidden relationships and enabling accurate query answering. Nevertheless, this capability comes with inherent trade-offs, as it introduces additional privacy risks to the database. Malicious attackers can infer more sensitive information in the database using well-designed combinatorial queries, such as by comparing the answer sets of where Turing Award winners born before 1950 and after 1940 lived, the living places of Turing Award winner Hinton are probably exposed, although the living places may have been deleted in the training due to the privacy concerns. In this work, inspired by the privacy protection in graph embeddings, we propose a privacy-preserving neural graph database (P-NGDB) to alleviate the risks of privacy leakage in NGDBs. We introduce adversarial training techniques in the training stage to force the NGDBs to generate indistinguishable answers when queried with private information, enhancing the difficulty of inferring sensitive information through combinations of multiple innocuous queries. Extensive experiment results on three datasets show that P-NGDB can effectively protect private information in the graph database while delivering high-quality public answers responses to queries.
翻訳日:2023-12-27 17:28:36 公開日:2023-12-25
# サブスペースクラスタリングの深部構造と注意

Deep Structure and Attention Aware Subspace Clustering ( http://arxiv.org/abs/2312.15577v1 )

ライセンス: Link先を確認
Wenhao Wu, Weiwei Wang, Shengjiang Kong(参考訳) クラスタリングは、コンピュータビジョンやパターン認識に広く応用される、教師なし表現学習タスクである。 ディープクラスタリングは、ディープニューラルネットワークを使用して、クラスタリングに適した潜在表現を学習する。 しかし、従来のディープクラスタリング手法、特にイメージクラスタリングでは、データ自体の特徴に重点を置いており、クラスタリングに不可欠なデータ間の関係を無視している。 本稿では,データの内容と構造情報を同時に考慮した,新しい深層構造と注意意識サブスペースクラスタリング(dsasc)を提案する。 視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。 この2つの機能は、スペクトルクラスタリングのより効率的な部分空間構造を学ぶために使われる。 その結果,本手法は最先端の手法よりも優れていた。 私たちのコードはhttps://github.com/cs-whh/DSASCで公開されます。

Clustering is a fundamental unsupervised representation learning task with wide application in computer vision and pattern recognition. Deep clustering utilizes deep neural networks to learn latent representation, which is suitable for clustering. However, previous deep clustering methods, especially image clustering, focus on the features of the data itself and ignore the relationship between the data, which is crucial for clustering. In this paper, we propose a novel Deep Structure and Attention aware Subspace Clustering (DSASC), which simultaneously considers data content and structure information. We use a vision transformer to extract features, and the extracted features are divided into two parts, structure features, and content features. The two features are used to learn a more efficient subspace structure for spectral clustering. Extensive experimental results demonstrate that our method significantly outperforms state-of-the-art methods. Our code will be available at https://github.com/cs-whh/DSASC
翻訳日:2023-12-27 17:27:44 公開日:2023-12-25
# 認識型ニューラルネットワークを用いたllm幻覚の軽減

Reducing LLM Hallucinations using Epistemic Neural Networks ( http://arxiv.org/abs/2312.15576v1 )

ライセンス: Link先を確認
Shreyas Verma, Kien Tran, Yusuf Ali, Guangyu Min(参考訳) 大規模言語モデルにおける幻覚の低減と検出はオープンな研究課題である。 本研究では,凍結した大規模言語モデルにおける幻覚を減少させるために,不確実性推定の分野における最近の進歩を活用している。 大規模事前学習モデルの出力ジョイント分布を改善するために、エピステマティックニューラルネットワークが最近提案されている。 ENNは、モデルのジョイント分布と不確実性推定を改善するために、大きな凍結モデルに取り付けられた小さなネットワークである。 本研究では,llama-2 7bモデル上に認識型ニューラルネットワークを訓練し,コントラスト復号化特徴量拡張手法を組み合わせる。 我々は、次のトークン予測タスクのためにENNをトレーニングし、TruthfulQAデータセットの幻覚を減らすためにこの方法の有効性を探求する。 基本的に,学習済みモデルの潜伏埋め込みを利用した幻覚の低減手法を提案する。

Reducing and detecting hallucinations in large language models is an open research problem. In this project, we attempt to leverage recent advances in the field of uncertainty estimation to reduce hallucinations in frozen large language models. Epistemic neural networks have recently been proposed to improve output joint distributions for large pre-trained models. ENNs are small networks attached to large, frozen models to improve the model's joint distributions and uncertainty estimates. In this work, we train an epistemic neural network on top of the Llama-2 7B model combined with a contrastive decoding feature enhancement technique. We are the first to train an ENN for the next token prediction task and explore the efficacy of this method in reducing hallucinations on the TruthfulQA dataset. In essence, we provide a method that leverages a pre-trained model's latent embeddings to reduce hallucinations.
翻訳日:2023-12-27 17:26:58 公開日:2023-12-25
# 生体超音波CTのためのニューラルボーン直列演算子

Neural Born Series Operator for Biomedical Ultrasound Computed Tomography ( http://arxiv.org/abs/2312.15575v1 )

ライセンス: Link先を確認
Zhijun Zeng, Yihang Zheng, Youjia Zheng, Yubing Li, Zuoqiang Shi, He Sun(参考訳) Ultrasound Computed Tomography (USCT) は高分解能な臨床画像に放射線のない選択肢を提供する。 その可能性にもかかわらず、組織特性の再構築に必要な計算集約的なフルウェーブフォーム・インバージョン(FWI)はその臨床的有用性を制限する。 本稿では,NBSOをベースとしたFWIパイプラインによるUSCT画像再構成を高速化する新技術であるNeural Born Series Operator(NBSO)を紹介する。 実験的なUSCT条件下でシミュレーションされた包括的脳と乳房のデータセットに対して、NBSOは前方シミュレーションと画像再構成の両方において正確かつ効率的であることが証明された。 この進歩は、ニューラルオペレーターがほぼリアルタイムでUSCT再建を促進する可能性を示し、USCTの臨床応用がますます有効で有望になる。

Ultrasound Computed Tomography (USCT) provides a radiation-free option for high-resolution clinical imaging. Despite its potential, the computationally intensive Full Waveform Inversion (FWI) required for tissue property reconstruction limits its clinical utility. This paper introduces the Neural Born Series Operator (NBSO), a novel technique designed to speed up wave simulations, thereby facilitating a more efficient USCT image reconstruction process through an NBSO-based FWI pipeline. Thoroughly validated on comprehensive brain and breast datasets, simulated under experimental USCT conditions, the NBSO proves to be accurate and efficient in both forward simulation and image reconstruction. This advancement demonstrates the potential of neural operators in facilitating near real-time USCT reconstruction, making the clinical application of USCT increasingly viable and promising.
翻訳日:2023-12-27 17:26:43 公開日:2023-12-25
# スイッチバック実験の高速化

Faster Rates for Switchback Experiments ( http://arxiv.org/abs/2312.15574v1 )

ライセンス: Link先を確認
Su Jia, Sohom Bhattacharya, Nathan Kallus, Christina Lee Yu(参考訳) スイッチバック実験設計では、1つのユニット(例えば、システム全体)が1つのランダムな時間ブロックの処理に晒され、クロスユニットと時間的干渉の両方に取り組む。 Hu and Wager (2022) はブロックの開始点を縮める処理効果推定器を提案し、高速な混合を伴うマルコフ条件下でのグローバル平均処理効果(GATE)を推定するための$T^{-1/3}$レートを確立した。 彼らはこのレートが最適であり、より速いレートを楽しむために、異なる(そして設計に依存した)見積もりに焦点を当てることを提案している。 同じ設計の場合、ブロック全体を用いた代替推定器を提案し、同じ仮定の下で、元の設計に依存しないGATE推定器に対して、実際に$\sqrt{\log T/T}$の推定率を達成できることを示した。

Switchback experimental design, wherein a single unit (e.g., a whole system) is exposed to a single random treatment for interspersed blocks of time, tackles both cross-unit and temporal interference. Hu and Wager (2022) recently proposed a treatment-effect estimator that truncates the beginnings of blocks and established a $T^{-1/3}$ rate for estimating the global average treatment effect (GATE) in a Markov setting with rapid mixing. They claim this rate is optimal and suggest focusing instead on a different (and design-dependent) estimand so as to enjoy a faster rate. For the same design we propose an alternative estimator that uses the whole block and surprisingly show that it in fact achieves an estimation rate of $\sqrt{\log T/T}$ for the original design-independent GATE estimand under the same assumptions.
翻訳日:2023-12-27 17:26:04 公開日:2023-12-25
# ジェントリフィケーションを予測するグラフベースのマルチモーダルフレームワーク

A graph-based multimodal framework to predict gentrification ( http://arxiv.org/abs/2312.15646v1 )

ライセンス: Link先を確認
Javad Eshtiyagh, Baotong Zhang, Yujing Sun, Linhui Wu, Zhao Wang(参考訳) ジェントリフィケーション - 裕福な住民の流入による低所得都市部の変容-は、多くの再生利益をもたらしている。 しかし、低所得の住民にとっての課題も極めて大きい。 政策立案者が低所得者を保護するためのターゲットと早期の行動を支援するため、研究者は最近、社会経済と画像の特徴を用いた性化を予測する機械学習モデルをいくつか提案した。 先行研究に基づいて, 道路・必須施設(学校, 病院, 地下鉄駅など)の都市ネットワークに基づくゲントリフィケーションを予測するための, グラフ型マルチモーダル深層学習フレームワークを提案する。 シカゴ、ニューヨーク、ロサンゼルスのデータを使って提案されたフレームワークをトレーニングし、テストする。 このモデルは平均0.9倍の精度で国勢調査水準のジェントリフィケーションを予測できる。 さらに、この枠組みは、学校とジェントリフィケーションの未検討の強い関係を発見し、ジェントリフィケーションに影響を及ぼす社会的要因のさらなる探索の基盤となる。

Gentrification--the transformation of a low-income urban area caused by the influx of affluent residents--has many revitalizing benefits. However, it also poses extremely concerning challenges to low-income residents. To help policymakers take targeted and early action in protecting low-income residents, researchers have recently proposed several machine learning models to predict gentrification using socioeconomic and image features. Building upon previous studies, we propose a novel graph-based multimodal deep learning framework to predict gentrification based on urban networks of tracts and essential facilities (e.g., schools, hospitals, and subway stations). We train and test the proposed framework using data from Chicago, New York City, and Los Angeles. The model successfully predicts census-tract level gentrification with 0.9 precision on average. Moreover, the framework discovers a previously unexamined strong relationship between schools and gentrification, which provides a basis for further exploration of social factors affecting gentrification.
翻訳日:2023-12-27 17:20:41 公開日:2023-12-25
# クロスモーダルアライメントを用いた手話翻訳のための条件変分オートエンコーダ

Conditional Variational Autoencoder for Sign Language Translation with Cross-Modal Alignment ( http://arxiv.org/abs/2312.15645v1 )

ライセンス: Link先を確認
Rui Zhao, Liang Zhang, Biao Fu, Cong Hu, Jinsong Su, Yidong Chen(参考訳) 手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。 典型的なマルチモーダルタスクとして、手話ビデオと話し言葉テキストの間に固有のモダリティギャップがあり、視覚とテキストのモダリティ間のクロスモーダルアライメントが重要である。 しかし、以前の研究では、クロスモーダル問題を緩和するために中間符号の光沢表現に依存する傾向があり、その結果が損なわれる可能性のあるモダリティ間のアライメントを無視している。 本稿では,手話映像と音声テキストの直接的かつ十分なクロスモーダルアライメントを容易にするslt(cv-slt)のための条件付き変分オートエンコーダに基づく新しい枠組みを提案する。 具体的には、CV-SLTは、2つのKullback-Leibler(KL)分岐を持つ2つの経路から構成され、それぞれエンコーダとデコーダの出力を正規化する。 先行経路では、モデルは対象テキストを予測するために視覚情報のみに依存するが、後経路では、対象テキストを再構築するために視覚情報とテキスト知識を同時にエンコードする。 第1のKL発散は条件付き変分オートエンコーダを最適化し、エンコーダ出力を正規化し、第2のKL発散は後進経路から前進経路への自己蒸留を行い、デコーダ出力の整合性を確保する。 本稿では, 後進経路におけるテキスト情報を, 後進経路に対する残留成分とみなす共有注意残留ガウス分布(ARGD)を用いて, 後進経路へのテキスト情報の統合をさらに強化する。 公開データセット(phoenix14tおよびcsl-daily)で行った広範囲な実験により、このフレームワークの有効性が実証され、新たな最先端結果が得られた。

Sign language translation (SLT) aims to convert continuous sign language videos into textual sentences. As a typical multi-modal task, there exists an inherent modality gap between sign language videos and spoken language text, which makes the cross-modal alignment between visual and textual modalities crucial. However, previous studies tend to rely on an intermediate sign gloss representation to help alleviate the cross-modal problem thereby neglecting the alignment across modalities that may lead to compromised results. To address this issue, we propose a novel framework based on Conditional Variational autoencoder for SLT (CV-SLT) that facilitates direct and sufficient cross-modal alignment between sign language videos and spoken language text. Specifically, our CV-SLT consists of two paths with two Kullback-Leibler (KL) divergences to regularize the outputs of the encoder and decoder, respectively. In the prior path, the model solely relies on visual information to predict the target text; whereas in the posterior path, it simultaneously encodes visual information and textual knowledge to reconstruct the target text. The first KL divergence optimizes the conditional variational autoencoder and regularizes the encoder outputs, while the second KL divergence performs a self-distillation from the posterior path to the prior path, ensuring the consistency of decoder outputs. We further enhance the integration of textual information to the posterior path by employing a shared Attention Residual Gaussian Distribution (ARGD), which considers the textual information in the posterior path as a residual component relative to the prior path. Extensive experiments conducted on public datasets (PHOENIX14T and CSL-daily) demonstrate the effectiveness of our framework, achieving new state-of-the-art results while significantly alleviating the cross-modal representation discrepancy.
翻訳日:2023-12-27 17:20:23 公開日:2023-12-25
# UVAGaze: 視線推定のための教師なし1対2ビュー適応

UVAGaze: Unsupervised 1-to-2 Views Adaptation for Gaze Estimation ( http://arxiv.org/abs/2312.15644v1 )

ライセンス: Link先を確認
Ruicong Liu, Feng Lu(参考訳) 視線推定は近年の研究への関心が高まっている。 現在の手法のほとんどは、入力としてシングルビューの顔画像に依存している。 しかし、これらのアプローチが大きな頭部角度を扱うことは困難であり、推定の精度を損なう可能性がある。 この問題に対処するため、第2のカメラを追加することで、視線を捉えるのに役立ちます。 しかし、既存のマルチビューメソッドには2つの制限がある。 1) トレーニングにはマルチビューアノテーションが必要ですが,高価です。 2) さらに重要なのは,テスト中に複数のカメラの位置を正確に把握し,トレーニングで使用するものと一致させることで,アプリケーションのシナリオが制限されることだ。 そこで本研究では,視線推定のための教師なし1-to-2ビュー適応フレームワークであるuvagaze(unsupervised 1-to-2 views adaptation framework)を提案する。 本手法は、フレキシブルに配置したデュアルカメラのための従来の単視点視線推定器を適応させる。 ここで「フレキシブル」とは、トレーニングデータに関係なく、外部パラメータを知らずに、デュアルカメラを任意の場所に配置することを意味する。 具体的には、UVAGazeは両視点間の視線方向の本質的な整合性を利用する二重視点相互監督適応戦略を構築している。 この方法では,単一視点事前学習の利点を享受できるだけでなく,より高度な2視点視線推定を実現することができる。 実験結果から,双対ビューに適応した単一ビュー推定器は,特にクロスデータセット設定において,47.0%の大幅な改善を達成できることがわかった。 プロジェクトページ: https://github.com/MickeyLLG/UVAGaze.com

Gaze estimation has become a subject of growing interest in recent research. Most of the current methods rely on single-view facial images as input. Yet, it is hard for these approaches to handle large head angles, leading to potential inaccuracies in the estimation. To address this issue, adding a second-view camera can help better capture eye appearance. However, existing multi-view methods have two limitations. 1) They require multi-view annotations for training, which are expensive. 2) More importantly, during testing, the exact positions of the multiple cameras must be known and match those used in training, which limits the application scenario. To address these challenges, we propose a novel 1-view-to-2-views (1-to-2 views) adaptation solution in this paper, the Unsupervised 1-to-2 Views Adaptation framework for Gaze estimation (UVAGaze). Our method adapts a traditional single-view gaze estimator for flexibly placed dual cameras. Here, the "flexibly" means we place the dual cameras in arbitrary places regardless of the training data, without knowing their extrinsic parameters. Specifically, the UVAGaze builds a dual-view mutual supervision adaptation strategy, which takes advantage of the intrinsic consistency of gaze directions between both views. In this way, our method can not only benefit from common single-view pre-training, but also achieve more advanced dual-view gaze estimation. The experimental results show that a single-view estimator, when adapted for dual views, can achieve much higher accuracy, especially in cross-dataset settings, with a substantial improvement of 47.0%. Project page: https://github.com/MickeyLLG/UVAGaze.
翻訳日:2023-12-27 17:19:48 公開日:2023-12-25
# 知識グラフに基づく帰納論理的推論

Abductive Logical Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2312.15643v1 )

ライセンス: Link先を確認
Jiaxin Bai, Yicheng Wang, Tianshi Zheng, Yue Guo, Xin Liu, and Yangqiu Song(参考訳) 帰納的推論は、知識のある推測者が観察を説明する最も可能性の高い理由を推測する論理的推論である。 しかし、知識グラフ(kgs)上の帰納的論理推論は、kg文献では未検討である。 本稿では,KGから最も確率の高い論理的仮説を推定し,観測された実体集合を説明することを含む,KGに対する帰納的論理的推論の課題を,当初かつ正式に提起する。 従来のアプローチでは、ナレッジグラフ問題に取り組むために、検索のようなシンボリックな手法を使う。 しかし、KGは自然に不完全であり、論理的仮説は複数の変数や関係と複雑であるので、記号的手法はこの問題には適さない。 これらの問題に対処するために,観測に基づく論理式作成のための生成的アプローチを提案する。 まず、kgから仮説観測ペアをサンプリングし、教師付きトレーニングを用いて観測から仮説を生成する生成モデルを訓練する。 教師あり学習は生成仮説と参照仮説の間の構造的差異を最小化するだけなので、より高い構造的類似性は観測のためのより良い説明を保証しない。 この問題に対処するために,知識グラフ(RLF-KG)法による強化学習を導入する。 実験の結果, 変圧器を用いた生成モデルでは, 論理的説明をロバストかつ効率的に生成できることがわかった。 さらに、RLF-KGの助けを借りて、生成した仮説は、観測をよりよく説明することができ、RLF-KGを用いた教師付き学習法は、広く使用されている3つのKGの帰納的知識グラフ推論に関する最先端の結果を得る。

Abductive reasoning is logical reasoning that makes educated guesses to infer the most likely reasons to explain the observations. However, the abductive logical reasoning over knowledge graphs (KGs) is underexplored in KG literature. In this paper, we initially and formally raise the task of abductive logical reasoning over KGs, which involves inferring the most probable logic hypothesis from the KGs to explain an observed entity set. Traditional approaches use symbolic methods, like searching, to tackle the knowledge graph problem. However, the symbolic methods are unsuitable for this task, because the KGs are naturally incomplete, and the logical hypotheses can be complex with multiple variables and relations. To address these issues, we propose a generative approach to create logical expressions based on observations. First, we sample hypothesis-observation pairs from the KG and use supervised training to train a generative model that generates hypotheses from observations. Since supervised learning only minimizes structural differences between generated and reference hypotheses, higher structural similarity does not guarantee a better explanation for observations. To tackle this issue, we introduce the Reinforcement Learning from the Knowledge Graph (RLF-KG) method, which minimizes the differences between observations and conclusions drawn from the generated hypotheses according to the KG. Experimental results demonstrate that transformer-based generative models can generate logical explanations robustly and efficiently. Moreover, with the assistance of RLF-KG, the generated hypothesis can provide better explanations for the observations, and the method of supervised learning with RLF-KG achieves state-of-the-art results on abductive knowledge graph reasoning on three widely used KGs.
翻訳日:2023-12-27 17:19:20 公開日:2023-12-25
# DOE/NSF Workshop on correctness in Scientific Computing, June 2023, Orlando, FL参加報告

Report of the DOE/NSF Workshop on Correctness in Scientific Computing, June 2023, Orlando, FL ( http://arxiv.org/abs/2312.15640v1 )

ライセンス: Link先を確認
Maya Gokhale, Ganesh Gopalakrishnan, Jackson Mayo, Santosh Nagarakatte, Cindy Rubio-Gonz\'alez, Stephen F. Siegel(参考訳) 本報告は,federated computing research conference (fcrc) 2023の一環として2023年6月17日に開催された doe/nsf workshop on correctness in scientific computing (csc'23) のダイジェストである。 CSC は DOE と NSF によって考案され,大規模科学的シミュレーションを行うために計算手法を使用している人々の間で,正当性に関する懸念が高まっている。 これらの懸念は、今日のHPCソフトウェアとハードウェアの複雑さ、スケール、および不均一性を考えると、エスカレートしている。 正しさが積極的に取り組まなければ、計算科学者やエンジニアが直面する許容できない生産性の損失に加えて、欠陥のある科学を生み出すリスクがある。 hpcシステムには、機械学習やサロゲートモデルを含むデータ駆動手法が含まれ始めており、その全体的なhpcシステムの正確性への影響についても議論が急務と感じられた。 この領域の正しさの保持者は、高エネルギー効率を提供する特別な目的のハードウェアを設計するコンピュータアーキテクチャ研究者、精度の低下とデータ移動の低減に基づく効率的な計算スキームを開発する数値アルゴリズム設計者、プログラミング言語の研究者や正しいコンパイルと検証の方法論を求める形式的方法など、コンピュータ科学のいくつかのサブ分野に属すると同定された。 このような多様なバックグラウンドを持つ参加者を巻き込むため、CSCは2023年のFCRC(Federated Computing Research Conference)で開催された。

This report is a digest of the DOE/NSF Workshop on Correctness in Scientific Computing (CSC'23) held on June 17, 2023, as part of the Federated Computing Research Conference (FCRC) 2023. CSC was conceived by DOE and NSF to address the growing concerns about correctness among those who employ computational methods to perform large-scale scientific simulations. These concerns have escalated, given the complexity, scale, and heterogeneity of today's HPC software and hardware. If correctness is not proactively addressed, there is the risk of producing flawed science on top of unacceptable productivity losses faced by computational scientists and engineers. HPC systems are beginning to include data-driven methods, including machine learning and surrogate models, and their impact on overall HPC system correctness was also felt urgent to discuss. Stakeholders of correctness in this space were identified to belong to several sub-disciplines of computer science; from computer architecture researchers who design special-purpose hardware that offers high energy efficiencies; numerical algorithm designers who develop efficient computational schemes based on reduced precision as well as reduced data movement; all the way to researchers in programming language and formal methods who seek methodologies for correct compilation and verification. To include attendees with such a diverse set of backgrounds, CSC was held during the Federated Computing Research Conference (FCRC) 2023.
翻訳日:2023-12-27 17:18:49 公開日:2023-12-25
# MuLA-GAN:水中可視性向上のためのマルチレベル注意GAN

MuLA-GAN: Multi-Level Attention GAN for Enhanced Underwater Visibility ( http://arxiv.org/abs/2312.15633v1 )

ライセンス: Link先を確認
Ahsan Baidar Bakht, Zikai Jia, Muhayy ud Din, Waseem Akram, Lyes Saad Soud, Lakmal Seneviratne, Defu Lin, Shaoming He and Irfan Hussain(参考訳) 水中環境は、色歪み、コントラストの減少、ぼやけなど固有の課題を示し、正確な分析を妨げる。 本研究では,総合的な水中画像強調のためのGAN(Generative Adversarial Networks)とマルチレベルアテンション機構の相乗効果を利用した新しいアプローチであるMuLA-GANを紹介する。 GANアーキテクチャにおけるマルチレベル注意の統合により、正確な画像復元に不可欠な識別的特徴を学習する能力が大幅に向上する。 関連する空間的・多レベルな特徴に選択的に焦点を合わせることで,様々な応用に不可欠な水中画像の複雑な詳細を捉え,保存することができる。 UIEBテストデータセット、UIEBチャレンジデータセット、U45、UCCSデータセットなど、さまざまなデータセットの大規模な質的および定量的分析は、既存の最先端メソッドと比較して、MuLA-GANの優れたパフォーマンスを強調している。 バイオファウリングや養殖の応用に適した特殊なデータセットに関する実験的評価は, 環境問題におけるモデルの堅牢性を示すものである。 UIEBテストデータセットでは、 MuLA-GAN は例外的な PSNR (25.59) と SSIM (0.893) のスコアを達成し、それぞれ 24.36 と 0.885 のスコアを持つ第2ベットモデルである Water-Net を上回っている。 この研究は、水中画像の強化における重要な研究ギャップに対処するだけでなく、GANの強化におけるマルチレベル注意の重要性を浮き彫りにした。

The underwater environment presents unique challenges, including color distortions, reduced contrast, and blurriness, hindering accurate analysis. In this work, we introduce MuLA-GAN, a novel approach that leverages the synergistic power of Generative Adversarial Networks (GANs) and Multi-Level Attention mechanisms for comprehensive underwater image enhancement. The integration of Multi-Level Attention within the GAN architecture significantly enhances the model's capacity to learn discriminative features crucial for precise image restoration. By selectively focusing on relevant spatial and multi-level features, our model excels in capturing and preserving intricate details in underwater imagery, essential for various applications. Extensive qualitative and quantitative analyses on diverse datasets, including UIEB test dataset, UIEB challenge dataset, U45, and UCCS dataset, highlight the superior performance of MuLA-GAN compared to existing state-of-the-art methods. Experimental evaluations on a specialized dataset tailored for bio-fouling and aquaculture applications demonstrate the model's robustness in challenging environmental conditions. On the UIEB test dataset, MuLA-GAN achieves exceptional PSNR (25.59) and SSIM (0.893) scores, surpassing Water-Net, the second-best model, with scores of 24.36 and 0.885, respectively. This work not only addresses a significant research gap in underwater image enhancement but also underscores the pivotal role of Multi-Level Attention in enhancing GANs, providing a novel and comprehensive framework for restoring underwater image quality.
翻訳日:2023-12-27 17:18:19 公開日:2023-12-25
# rdf-star2vec: データマイニングのためのrdf-starグラフ埋め込み

RDF-star2Vec: RDF-star Graph Embeddings for Data Mining ( http://arxiv.org/abs/2312.15626v1 )

ライセンス: Link先を確認
Shusaku Egami, Takanori Ugai, Masateru Oota, Kyoumoto Matsushita, Takahiro Kawamura, Kouji Kozaki, Ken Fukuda(参考訳) リソース記述フレームワーク(RDF)のような知識グラフ(KG)は、トリプルの構造を通して様々なエンティティ間の関係を表す((<subject, predicate, object>)。 知識グラフ埋め込み(KGE)は、特にノード分類とリンク予測タスクにおいて機械学習アプリケーションにおいて重要である。 KGEはセマンティックウェブコミュニティにおいて重要な研究トピックである。 RDF-starは、引用三重項(QT)の概念を導入している。 さらに、RDF-starはQTを別のQT内で合成実体として機能させることで、ネスト構造を持つ再帰的超相対的KGの表現を可能にする。 しかし、既存のKGEモデルは、マルチレベルネストQTとQT-QT関係を含むRDF-スターグラフを考慮しないため、QTとエンティティのセマンティクスを適切に学習することができない。 本研究は,rdf-starグラフ用に設計された新しいkgeモデルであるrdf-star2vecを紹介する。 RDF-star2Vecはグラフウォーク技術を導入し、QTとその構成要素間の確率的遷移を可能にする。 QT、エンティティ、リレーションのための特徴ベクトルは、構造化スキップグラムモデルを通じて生成されたシーケンスから導出される。 さらに,複雑なrdf-starグラフに注目したデータマイニングタスクのためのデータセットとベンチマークフレームワークを提供する。 RDF-star2Vecは分類,クラスタリング,エンティティ関連性,QT類似性など,最近のRDF2Vecの拡張よりも優れた性能を示した。

Knowledge Graphs (KGs) such as Resource Description Framework (RDF) data represent relationships between various entities through the structure of triples (<subject, predicate, object>). Knowledge graph embedding (KGE) is crucial in machine learning applications, specifically in node classification and link prediction tasks. KGE remains a vital research topic within the semantic web community. RDF-star introduces the concept of a quoted triple (QT), a specific form of triple employed either as the subject or object within another triple. Moreover, RDF-star permits a QT to act as compositional entities within another QT, thereby enabling the representation of recursive, hyper-relational KGs with nested structures. However, existing KGE models fail to adequately learn the semantics of QTs and entities, primarily because they do not account for RDF-star graphs containing multi-leveled nested QTs and QT-QT relationships. This study introduces RDF-star2Vec, a novel KGE model specifically designed for RDF-star graphs. RDF-star2Vec introduces graph walk techniques that enable probabilistic transitions between a QT and its compositional entities. Feature vectors for QTs, entities, and relations are derived from generated sequences through the structured skip-gram model. Additionally, we provide a dataset and a benchmarking framework for data mining tasks focused on complex RDF-star graphs. Evaluative experiments demonstrated that RDF-star2Vec yielded superior performance compared to recent extensions of RDF2Vec in various tasks including classification, clustering, entity relatedness, and QT similarity.
翻訳日:2023-12-27 17:17:48 公開日:2023-12-25
# 量子非ガウス減衰器と増幅器チャネルの古典的容量

Classical capacity of quantum non-Gaussian attenuator and amplifier channels ( http://arxiv.org/abs/2312.15623v1 )

ライセンス: Link先を確認
Zacharie Van Herstraeten, Saikat Guha, Nicolas J. Cerf(参考訳) 我々は、ビームスプリッタまたは2モードスクイーサーを介して入力モードと任意の状態で準備された環境モードとを結合する量子ボソニックチャネルを考える。 非ガウス減衰器または増幅器チャネルと呼ばれるこのチャネルの古典的容量について検討する。 環境状態が熱的であれば、古典的容量がよく知られているガウス位相共変チャネルを回収する。 そうでない場合は、チャネルの古典的容量に対する下限と上限の両方を導出し、非ガウス的加法-ノイズチャネルの容量の古典的扱いからインスピレーションを得ている。 キャパシティへの低境界は常に達成可能であることを示し、通信速度がガウス等価チャネル(つまり、環境状態が同じ共分散行列を持つガウス状態に置き換えられるチャネル)のキャパシティを上回るように、チャネルの非ガウス性を利用することができる例を示す。 最後に、上界は、非ガウス減衰器やアンプチャネルの出力エントロピーを最小化する入力状態に関する予想を定式化し、調査する。 これらの予想を解くことは、多くの非ガウシアンボソニックチャネルの容量にアクセスするための主要なステップとなる。

We consider a quantum bosonic channel that couples the input mode via a beam splitter or two-mode squeezer to an environmental mode that is prepared in an arbitrary state. We investigate the classical capacity of this channel, which we call a non-Gaussian attenuator or amplifier channel. If the environment state is thermal, we of course recover a Gaussian phase-covariant channel whose classical capacity is well known. Otherwise, we derive both a lower and an upper bound to the classical capacity of the channel, drawing inspiration from the classical treatment of the capacity of non-Gaussian additive-noise channels. We show that the lower bound to the capacity is always achievable and give examples where the non-Gaussianity of the channel can be exploited so that the communication rate beats the capacity of the Gaussian-equivalent channel (i.e., the channel where the environment state is replaced by a Gaussian state with the same covariance matrix). Finally, our upper bound leads us to formulate and investigate conjectures on the input state that minimizes the output entropy of non-Gaussian attenuator or amplifier channels. Solving these conjectures would be a main step towards accessing the capacity of a large class of non-Gaussian bosonic channels.
翻訳日:2023-12-27 17:17:20 公開日:2023-12-25
# StyleGANによるスケーラブルな顔画像符号化:人間と機械の協調視覚の圧縮に向けて

Scalable Face Image Coding via StyleGAN Prior: Towards Compression for Human-Machine Collaborative Vision ( http://arxiv.org/abs/2312.15622v1 )

ライセンス: Link先を確認
Qi Mao, Chongyu Wang, Meng Wang, Shiqi Wang, Ruijie Chen, Libiao Jin, Siwei Ma(参考訳) 視覚コンテンツの急速な増殖と機械ビジョン技術の急速な発展は、人間の要求と機械の要求の両方を満たすために効果的に表現される巨大なスケールで視覚データを提供する上で大きな課題をもたらす。 本研究では,人間と機械の協調的ビジョンのための効率的なスケーラブルなコーディングパラダイムの構築を,高度な生成前処理から導出した階層表現がいかに容易かを検討する。 私たちの重要な洞察は、スタイルガンを事前に活用することで、基本層、中層層、強化層に精巧にデザインされた階層的意味論をエンコードした3層表現を学習し、機械知能と人間の視覚認識を進歩的に支援できるということです。 効率的な圧縮を実現するために, 層間冗長性を低減するために, 層間拡張エントロピートランスを提案する。 マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。 顔画像圧縮におけるパラダイムの有効性を検証する。 大規模定性的かつ定量的な実験結果から、機械解析と極低ビットレート(<0.01$bpp)での人間の知覚の両方の観点から、最新の圧縮標準であるVersatile Video Coding(VVC)よりも提案パラダイムの方が優れていることが示され、人間と機械の協調圧縮の新しい洞察を提供する。

The accelerated proliferation of visual content and the rapid development of machine vision technologies bring significant challenges in delivering visual data on a gigantic scale, which shall be effectively represented to satisfy both human and machine requirements. In this work, we investigate how hierarchical representations derived from the advanced generative prior facilitate constructing an efficient scalable coding paradigm for human-machine collaborative vision. Our key insight is that by exploiting the StyleGAN prior, we can learn three-layered representations encoding hierarchical semantics, which are elaborately designed into the basic, middle, and enhanced layers, supporting machine intelligence and human visual perception in a progressive fashion. With the aim of achieving efficient compression, we propose the layer-wise scalable entropy transformer to reduce the redundancy between layers. Based on the multi-task scalable rate-distortion objective, the proposed scheme is jointly optimized to achieve optimal machine analysis performance, human perception experience, and compression ratio. We validate the proposed paradigm's feasibility in face image compression. Extensive qualitative and quantitative experimental results demonstrate the superiority of the proposed paradigm over the latest compression standard Versatile Video Coding (VVC) in terms of both machine analysis as well as human perception at extremely low bitrates ($<0.01$ bpp), offering new insights for human-machine collaborative compression.
翻訳日:2023-12-27 17:16:57 公開日:2023-12-25
# 常温マイクロ波量子エレクトロニクスのための固体ハイブリッドシステムからのコヒーレントマイクロ波放射の調整

Tailoring coherent microwave emission from a solid-state hybrid system for room-temperature microwave quantum electronics ( http://arxiv.org/abs/2312.15620v1 )

ライセンス: Link先を確認
Kaipu Wang, Hao Wu, Bo Zhang, Xuri Yao, Jiakai Zhang, Mark Oxborrow, and Qing Zhao(参考訳) マイクロ波領域で動作している量子エレクトロニクスは、量子コンピュータ、センサー、通信デバイスの重要な構成要素になりつつある。 しかし、マイクロ波量子エレクトロニクスの分野は長い間、繊細な量子特性を維持するための低温条件の必要性によって支配されてきた。 本稿では,誘電体共振器に結合した光励起ペンタセン三重項スピンアンサンブルからなる固体ハイブリッドシステムについて報告する。 ハイブリッドシステムに外部駆動とアクティブ散逸制御を組み込むことにより、maserデバイスの性能を最適化するための鍵となる約9.4ghzのmaserエミッション特性の効率的なチューニングを実現する。 我々の研究は、既存のペンタセンメーザーの動作周波数と機能の境界を推し進めるだけでなく、室温でメイシングプロセスを制御するための普遍的な経路を示し、量子情報処理と通信のために新しい固体メーザーを最適化する機会を強調している。

Quantum electronics operating in the microwave domain are burgeoning and becoming essential building blocks of quantum computers, sensors and communication devices. However, the field of microwave quantum electronics has long been dominated by the need for cryogenic conditions to maintain the delicate quantum characteristics. Here we report on a solid-state hybrid system, constituted by a photo-excited pentacene triplet spin ensemble coupled to a dielectric resonator, that is for the first time capable of both coherent microwave quantum amplification and oscillation at X band via the masing process at room temperature. By incorporating external driving and active dissipation control into the hybrid system, we achieve efficient tuning of the maser emission characteristics at around 9.4 GHz, which is key to optimizing the performance of the maser device. Our work not only pushes the boundaries of the operating frequency and functionality of the existing pentacene masers, but also demonstrate a universal route for controlling the masing process at room temperature, highlighting opportunities for optimizing emerging solid-state masers for quantum information processing and communication.
翻訳日:2023-12-27 17:16:30 公開日:2023-12-25
# GanFinger: ディープニューラルネットワークオーナシップ検証のためのGANベースの指紋生成

GanFinger: GAN-Based Fingerprint Generation for Deep Neural Network Ownership Verification ( http://arxiv.org/abs/2312.15617v1 )

ライセンス: Link先を確認
Huali Ren, Anli Yan, Xiaojun Ren, Pei-Gen Ye, Chong-zhi Gao, Zhili Zhou, Jin Li(参考訳) ディープニューラルネットワーク(DNN)は幅広いアプリケーションシナリオで広く利用されている。 一般に、商業的に実行可能なニューラルネットワークのトレーニングには大量のデータと計算リソースが必要であり、不正なユーザがネットワークを違法に使用することは容易である。 そのため、ネットワークオーナシップの検証は、デジタル資産を保護する上で最も重要なステップの1つとなっている。 ネットワークの所有権を検証するため、既存のネットワークフィンガープリンティングアプローチは、効率性、ステルス性、識別性といった面では不十分である。 これらの問題に対処するために,ganfingerと呼ばれるネットワークフィンガープリント手法を提案し,ネットワークの動作に基づくネットワークフィンガープリントを構築する。 具体的には、GanFingerはGAN(Generative Adversarial Networks)を活用して、知覚できない摂動を伴う参照可能な逆の例を効果的に生成する。 これらの例は、著作権のあるネットワークと海賊のネットワークで同一の出力を示しながら、無関係なネットワークで異なる結果を生み出すことができる。 さらに、指紋認証の精度を高めるために、指紋サンプル出力の精度・損耗距離に基づいてネットワーク類似度を算出する。 GanFingerの性能を評価するため、5つのネットワーク構造と4つの人気のあるネットワーク後処理技術を備えた186のネットワークからなる総合ベンチマークを構築した。 ベンチマーク実験は、GanFingerが効率、ステルス性、差別性において最先端の技術を著しく上回ることを示した。 指紋生成では6.57倍の速度でARUC値が0.175に向上し、相対的に約26%向上した。

Deep neural networks (DNNs) are extensively employed in a wide range of application scenarios. Generally, training a commercially viable neural network requires significant amounts of data and computing resources, and it is easy for unauthorized users to use the networks illegally. Therefore, network ownership verification has become one of the most crucial steps in safeguarding digital assets. To verify the ownership of networks, the existing network fingerprinting approaches perform poorly in the aspects of efficiency, stealthiness, and discriminability. To address these issues, we propose a network fingerprinting approach, named as GanFinger, to construct the network fingerprints based on the network behavior, which is characterized by network outputs of pairs of original examples and conferrable adversarial examples. Specifically, GanFinger leverages Generative Adversarial Networks (GANs) to effectively generate conferrable adversarial examples with imperceptible perturbations. These examples can exhibit identical outputs on copyrighted and pirated networks while producing different results on irrelevant networks. Moreover, to enhance the accuracy of fingerprint ownership verification, the network similarity is computed based on the accuracy-robustness distance of fingerprint examples'outputs. To evaluate the performance of GanFinger, we construct a comprehensive benchmark consisting of 186 networks with five network structures and four popular network post-processing techniques. The benchmark experiments demonstrate that GanFinger significantly outperforms the state-of-the-arts in efficiency, stealthiness, and discriminability. It achieves a remarkable 6.57 times faster in fingerprint generation and boosts the ARUC value by 0.175, resulting in a relative improvement of about 26%.
翻訳日:2023-12-27 17:16:12 公開日:2023-12-25
# 予測器としての不確実性:ゼロショットMOS予測のための自己監督学習の活用

Uncertainty as a Predictor: Leveraging Self-Supervised Learning for Zero-Shot MOS Prediction ( http://arxiv.org/abs/2312.15616v1 )

ライセンス: Link先を確認
Aditya Ravuri, Erica Cooper, Junichi Yamagishi(参考訳) 音声合成と変換システムにおける音声品質の予測は、特に平均世論スコア(mos)のような従来の方法が大規模に収集するには難しい場合、非常に難しい課題である。 本稿では,高効率なオーディオ品質予測におけるギャップ,特に大規模リスニングテストからの広範囲mosデータが利用できない低リソース環境について述べる。 我々は,wav2vec などの事前学習型自己教師付き学習(ssl)モデルから得られる不確実性尺度が mos スコアと相関することを示す。 これらの結果は2022年と2023年のvoicemosチャレンジのデータに基づいている。 我々は、異なるモデルと言語コンテキストにおけるこの相関関係の範囲について検討し、SSLモデルに固有の不確かさが、オーディオ品質評価の効果的なプロキシとしてどのように役立つかを明らかにする。 特に、コントラストのwav2vecモデルが、すべての設定において最もパフォーマンスが高いことを示す。

Predicting audio quality in voice synthesis and conversion systems is a critical yet challenging task, especially when traditional methods like Mean Opinion Scores (MOS) are cumbersome to collect at scale. This paper addresses the gap in efficient audio quality prediction, especially in low-resource settings where extensive MOS data from large-scale listening tests may be unavailable. We demonstrate that uncertainty measures derived from out-of-the-box pretrained self-supervised learning (SSL) models, such as wav2vec, correlate with MOS scores. These findings are based on data from the 2022 and 2023 VoiceMOS challenges. We explore the extent of this correlation across different models and language contexts, revealing insights into how inherent uncertainties in SSL models can serve as effective proxies for audio quality assessment. In particular, we show that the contrastive wav2vec models are the most performant in all settings.
翻訳日:2023-12-27 17:15:44 公開日:2023-12-25
# ソフトウェア工学タスクにおけるパラメータ効率の良いファインチューニングの総合評価

A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Software Engineering Tasks ( http://arxiv.org/abs/2312.15614v1 )

ライセンス: Link先を確認
Wentao Zou and Qi Li and Jidong Ge and Chuanyi Li and Xiaoyu Shen and Liguo Huang and Bin Luo(参考訳) 事前学習モデル(PTM)は,‘pre-train then fine-tune’’パラダイムに従って,さまざまなソフトウェアエンジニアリング(SE)の下流タスクで大きな成功を収めています。 PTMの完全な微調整は計算コストがかかるため、パラメータ効率の良い微調整(PEFT)が広く用いられている。 SEフィールドでのPEFT手法のテストは行われているが、包括的な評価はいまだに不十分である。 本稿では,8つのPTMと4つのSE下流タスクに対するPEFT法の有効性を評価することにより,このギャップを埋めることを目的とする。 異なるタスクやPEFT手法について、以下の研究課題に対する回答を求める。 1) ソースコードに特化してトレーニングされたPTMを使う方が効果的か、それとも自然言語テキストにトレーニングされたPTMを使うのに十分か? 2) 異なるモデルサイズの影響はどのようなものか? 3) モデルアーキテクチャはパフォーマンスにどのように影響しますか? また,PEFT法の有効性についても検討し,必要なトレーニング時間とGPUリソース消費のコストについて検討した。 我々は,様々なPTMおよびSE下流タスクにおけるPEFT手法のより深い理解を期待する。 すべてのコードとデータは \url{https://github.com/zwtnju/peft.git} で入手できる。

Pre-trained models (PTMs) have achieved great success in various Software Engineering (SE) downstream tasks following the ``pre-train then fine-tune'' paradigm. As fully fine-tuning all parameters of PTMs can be computationally expensive, a widely used solution is parameter-efficient fine-tuning (PEFT), which freezes PTMs while introducing extra parameters. Though work has been done to test PEFT methods in the SE field, a comprehensive evaluation is still lacking. This paper aims to fill in this gap by evaluating the effectiveness of five PEFT methods on eight PTMs and four SE downstream tasks. For different tasks and PEFT methods, we seek answers to the following research questions: 1) Is it more effective to use PTMs trained specifically on source code, or is it sufficient to use PTMs trained on natural language text? 2) What is the impact of varying model sizes? 3) How does the model architecture affect the performance? Besides effectiveness, we also discuss the efficiency of PEFT methods, concerning the costs of required training time and GPU resource consumption. We hope that our findings can provide a deeper understanding of PEFT methods on various PTMs and SE downstream tasks. All the codes and data are available at \url{https://github.com/zwtnju/PEFT.git}.
翻訳日:2023-12-27 17:15:26 公開日:2023-12-25
# APTv2:大規模データセットを用いた動物行動推定と追跡のベンチマーク

APTv2: Benchmarking Animal Pose Estimation and Tracking with a Large-scale Dataset and Beyond ( http://arxiv.org/abs/2312.15612v1 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Yufei Xu, Jing Zhang(参考訳) 動物行動推定・追跡(英: Animal Pose Estimation and Tracking、APT)は、動物の行動を理解するために不可欠である一連のビデオフレームを通して動物のキーポイントを検出し、監視するための重要なタスクである。 動物に関する過去の研究は、主に動物追跡か単一フレーム動物のポーズ推定のみに焦点を当てており、両方の側面の統合を無視している。 包括的APTデータセットの欠如は、ビデオに基づく動物のポーズ推定と追跡手法の進歩と評価を阻害し、現実世界の応用を制約する。 このギャップを埋めるために,動物ポーズ推定と追跡のための大規模ベンチマークであるAPTv2を導入する。 aptv2は2,749本のビデオクリップをフィルターして30種の動物から収集する。 各ビデオクリップは15フレームで構成され、合計で41,235フレームとなる。 精巧な手動アノテーションと厳密な検証に従って,84,611の動物インスタンスに対して,高品質のキーポイントとトラッキングアノテーションを提供し,フレームに存在するインスタンス数に基づいて,容易かつハードなサブセットに分割する。 aptv2 を基盤として, \posetrackmethodname という簡易なベースライン手法を確立し,1) 個体間移動学習性能を評価するための単一フレーム動物ポーズ推定トラック,(2) 種間ドメイン一般化性能を評価するための低データ転送と一般化トラック,(3) 動物のポーズ追跡トラックの3つのトラックにまたがる代表モデルのベンチマークを提供する。 実験の結果から,APTv2が動物のポーズ推定・追跡の指標として有用であることが確認された。 また、将来の研究のための新たな課題や機会も提示する。 コードとデータセットは \href{https://github.com/ViTAE-Transformer/APTv2}{https://github.com/ViTAE-Transformer/APTv2} でリリースされる。

Animal Pose Estimation and Tracking (APT) is a critical task in detecting and monitoring the keypoints of animals across a series of video frames, which is essential for understanding animal behavior. Past works relating to animals have primarily focused on either animal tracking or single-frame animal pose estimation only, neglecting the integration of both aspects. The absence of comprehensive APT datasets inhibits the progression and evaluation of animal pose estimation and tracking methods based on videos, thereby constraining their real-world applications. To fill this gap, we introduce APTv2, the pioneering large-scale benchmark for animal pose estimation and tracking. APTv2 comprises 2,749 video clips filtered and collected from 30 distinct animal species. Each video clip includes 15 frames, culminating in a total of 41,235 frames. Following meticulous manual annotation and stringent verification, we provide high-quality keypoint and tracking annotations for a total of 84,611 animal instances, split into easy and hard subsets based on the number of instances that exists in the frame. With APTv2 as the foundation, we establish a simple baseline method named \posetrackmethodname and provide benchmarks for representative models across three tracks: (1) single-frame animal pose estimation track to evaluate both intra- and inter-domain transfer learning performance, (2) low-data transfer and generalization track to evaluate the inter-species domain generalization performance, and (3) animal pose tracking track. Our experimental results deliver key empirical insights, demonstrating that APTv2 serves as a valuable benchmark for animal pose estimation and tracking. It also presents new challenges and opportunities for future research. The code and dataset are released at \href{https://github.com/ViTAE-Transformer/APTv2}{https://github.com/ViTAE-Transformer/APTv2}.
翻訳日:2023-12-27 17:15:07 公開日:2023-12-25
# PULASki:確率的セグメンテーションを改善するための統計的距離を用いた層間変動の学習

PULASki: Learning inter-rater variability using statistical distances to improve probabilistic segmentation ( http://arxiv.org/abs/2312.15686v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Franziska Gaidzik, Alessandro Sciarra, Hendrik Mattern, G\'abor Janiga, Oliver Speck, Andreas N\"urnberger and Sahani Pathiraja(参考訳) 医用画像の分野では、多くの教師あり学習に基づくセグメンテーションの手法は、複数の専門家のアノテーションにおける高い可変性、ラベル付きデータのパーキュリティ、クラス不均衡データセットなどの課題に直面している。 これらの問題は、臨床分析に必要な精度が欠如し、関連する不確実性の定量化なしに誤解を招く可能性があるセグメンテーションをもたらす可能性がある。 本稿では,小データセットであっても,専門家アノテーションの変動を正確に把握するバイオメディカルイメージセグメンテーションのためのPULASkiを提案する。 提案手法では,条件付き変分オートエンコーダ構造(確率的UNet)における統計的距離に基づく損失関数の改善を行い,特にクラス不均衡問題において,条件付きデコーダの学習を改善する。 本手法は,2つの構造的に異なるセグメンテーションタスク(頭蓋内血管と多発性硬化症(MS)病変)について解析し,定量値と定性出力の点から4つの確立されたベースラインと比較する。 PULASKi法は, 5 %の有意値ですべての基準値を上回る性能を示した。 生成されたセグメンテーションは、特に血管作業において、2Dの場合よりもずっと解剖学的に妥当であることが示されている。 また,本手法は多ラベルセグメンテーションタスクにも適用可能であり,血行動態モデリング(計算流体力学とデータ同化),臨床的意思決定,治療計画などの下流作業にも有用である。

In the domain of medical imaging, many supervised learning based methods for segmentation face several challenges such as high variability in annotations from multiple experts, paucity of labelled data and class imbalanced datasets. These issues may result in segmentations that lack the requisite precision for clinical analysis and can be misleadingly overconfident without associated uncertainty quantification. We propose the PULASki for biomedical image segmentation that accurately captures variability in expert annotations, even in small datasets. Our approach makes use of an improved loss function based on statistical distances in a conditional variational autoencoder structure (Probabilistic UNet), which improves learning of the conditional decoder compared to the standard cross-entropy particularly in class imbalanced problems. We analyse our method for two structurally different segmentation tasks (intracranial vessel and multiple sclerosis (MS) lesion) and compare our results to four well-established baselines in terms of quantitative metrics and qualitative output. Empirical results demonstrate the PULASKi method outperforms all baselines at the 5\% significance level. The generated segmentations are shown to be much more anatomically plausible than in the 2D case, particularly for the vessel task. Our method can also be applied to a wide range of multi-label segmentation tasks and and is useful for downstream tasks such as hemodynamic modelling (computational fluid dynamics and data assimilation), clinical decision making, and treatment planning.
翻訳日:2023-12-27 17:07:43 公開日:2023-12-25
# アライメントのよいデータは何でしょう? インストラクションチューニングにおける自動データ選択に関する総合的研究

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning ( http://arxiv.org/abs/2312.15685v1 )

ライセンス: Link先を確認
Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He(参考訳) インストラクションチューニングは、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクとユーザの好みに合わせるために使用される標準技術である。 最近の研究では、命令チューニングにおいてデータ工学が重要な役割を担っていることを示している -- 適切に選択された場合、優れた性能を得るためには限られたデータのみが必要である。 しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する基本的な理解はいまだに欠けている。 本研究では,アライメントのための自動データ選択戦略について深く検討する。 まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。 次に,測定に基づいてデータサンプルを選択するための簡易な方法を提案する。 提案手法で自動選択したデータサンプルを用いて,llamaモデルとmistralモデルから微調整した一連のモデルであるdeita(data- efficient instruction tuning for alignment)を提案する。 実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。 直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。 この作業は自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。 私たちは、モデルをより効率的に調整するための将来の研究のために、モデルだけでなく選択したデータセットもリリースします。

Instruction tuning is a standard technique employed to align large language models to end tasks and user preferences after the initial pretraining phase. Recent research indicates the critical role of data engineering in instruction tuning -- when appropriately selected, only limited data is necessary to achieve superior performance. However, we still lack a principled understanding of what makes good instruction tuning data for alignment, and how we should select data automatically and effectively. In this work, we delve deeply into automatic data selection strategies for alignment. We start with controlled studies to measure data across three dimensions: complexity, quality, and diversity, along which we examine existing methods and introduce novel techniques for enhanced data measurement. Subsequently, we propose a simple strategy to select data samples based on the measurement. We present deita (short for Data-Efficient Instruction Tuning for Alignment), a series of models fine-tuned from LLaMA and Mistral models using data samples automatically selected with our proposed approach. Empirically, deita performs better or on par with the state-of-the-art open-source alignment models with only 6K SFT training data samples -- over 10x less than the data used in the baselines. When further trained with direct preference optimization (DPO), deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55 MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools on automatic data selection, facilitating data-efficient alignment. We release our models as well as the selected datasets for future researches to effectively align models more efficiently.
翻訳日:2023-12-27 17:07:15 公開日:2023-12-25
# 確率的平均シフトクラスタリング

Stochastic mean-shift clustering ( http://arxiv.org/abs/2312.15684v1 )

ライセンス: Link先を確認
Itshak Lapidot(参考訳) 本稿では,確率バージョン平均シフトクラスタリングアルゴリズムを提案する。 確率的バージョンでは、データは集合的な分布のモードに「傾き」を向け、決定論的平均シフトでは各データムは個別に「傾き」、他の全てのデータポイントは元の座標に残る。 平均シフトクラスタリングの確率版は、複数のガウス成分間で分散された合成された2次元および3次元データ上の標準(決定論的)平均シフトクラスタリングと比較される。 クラスタの純度とクラスデータの純度で比較した。 確率的平均シフトクラスタリングは,ほとんどの場合,決定論的平均シフトよりも優れていた。

In this paper we presented a stochastic version mean-shift clustering algorithm. In the stochastic version the data points "climb" to the modes of the distribution collectively, while in the deterministic mean-shift, each datum "climbs" individually, while all other data points remains in their original coordinates. Stochastic version of the mean-shift clustering is comparison with a standard (deterministic) mean-shift clustering on synthesized 2- and 3-dimensional data distributed between several Gaussian component. The comparison performed in terms of cluster purity and class data purity. It was found the the stochastic mean-shift clustering outperformed in most of the cases the deterministic mean-shift.
翻訳日:2023-12-27 17:06:48 公開日:2023-12-25
# 三部分量子系と多部分量子系に対するポリガミー関係

Polygamy relations for tripartite and multipartite quantum systems ( http://arxiv.org/abs/2312.15683v1 )

ライセンス: Link先を確認
Yanying Liang and Zhu-Jun Zheng(参考訳) 三成分量子系および多成分量子系の多元性について検討する。 三分系では、三分系における多元数に対する解集合を構築し、集合の下界を見つける。 マルチパートシステムでは、まず、ポリガミーの新たな一般化された定義を提供し、これは、ポリガミーパワーが$\beta$である以前のポリガミーの不等式と同値である。 e_a$ は多元系において常に多元的である。

We study the polygamy property for tripartite and multipartite quantum system. In tripartite system, we build a solution set for polygamy in tripartite system and find a lower bound of the set, which can be a sufficient and necessary condition for any quantum entanglement of assistance $Q$ to be polygamous. In multipartite system, we firstly provide a new generalized definition for polygamy, which is equivalent to the former polygamy inequalities with a polygamy power $\beta$. Then we prove any entanglement of assistance $E_a$ is always polygamous in multipartite systems.
翻訳日:2023-12-27 17:06:38 公開日:2023-12-25
# 部分ファインチューニング:視覚変換器のフルファインチューニングの後継機

Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision Transformers ( http://arxiv.org/abs/2312.15681v1 )

ライセンス: Link先を確認
Peng Ye, Yongqi Huang, Chongjun Tu, Minglei Li, Tao Chen, Tong He, Wanli Ouyang(参考訳) 微調整された基礎モデルが様々な研究分野で大きな人気を集めている。 既存のファインチューニングの方法は、パラメータ効率の良いファインチューニングとハイパフォーマンスファインチューニングの2つのカテゴリに分けられる。 前者は効率の向上を目標とし、後者は性能向上に重点を置いている。 これらの方法の他に、部分微細チューニングは効率と精度を同時に向上できる革新的で有望な方向であることを示す。 まず,手作業で定義した8つの部分微調整戦略を,データセットや視覚トランスフォーマーのアーキテクチャで検証し,部分的微調整戦略(ffnのみや注意のみなど)のいくつかが,完全な微調整よりも少ないパラメータで優れた性能が得られること,適切なレイヤの選択が部分的微調整に不可欠であることを見いだした。 そこで本研究では,部分的微調整のための適切な層の選択を導くための新しい微調整角度測定法を提案する。 さらに,モデルスープの新しい次元として部分的微調整が機能し,パラメータの少ないモデル性能と一般化の両方を改善した。 幅広いデータセットとモデルに関する包括的な実験は、部分的な微調整の大きな可能性を検証する。

Fine-tuning pre-trained foundation models has gained significant popularity in various research fields. Existing methods for fine-tuning can be roughly divided into two categories, namely Parameter-Efficient Fine-Tuning and High-Performance Fine-Tuning. The former aims at improving efficiency, while the latter focuses on enhancing performance. Beyond these methods, we demonstrate that Partial Fine-Tuning can be an innovative and promising direction capable of concurrently enhancing both efficiency and accuracy. We first validate eight manually-defined partial fine-tuning strategies across kinds of datasets and vision transformer architectures, and find that some partial fine-tuning strategies (e.g., ffn only or attention only) can achieve better performance with fewer tuned parameters than full fine-tuning, and selecting appropriate layers is critical to partial fine-tuning. Thus, we propose a novel fine-tuned angle metric to guide the selection of appropriate layers for partial fine-tuning, making it flexible to be adapted to various scenarios for more practicable partial fine-tuning. Additionally, we show that partial fine-tuning can serve as a new dimension for Model Soups, improving both the model performance and generalization with fewer tuned parameters. Comprehensive experiments on a wide range of datasets and models validate the great potential of partial fine-tuning.
翻訳日:2023-12-27 17:06:28 公開日:2023-12-25
# BDIS-SLAM : 手術用軽量CPUベース高密度ステレオSLAM

BDIS-SLAM: A lightweight CPU-based dense stereo SLAM for surgery ( http://arxiv.org/abs/2312.15679v1 )

ライセンス: Link先を確認
Jingwei Song, Ray Zhang, Qiuchen Zhu, Jianyu Lin and Maani Ghaffari(参考訳) 目的:MIS(Minimally Invasive Surgery)におけるSLAM(Common dense stereo Simultaneous Localization and Mapping)アプローチは,リアルタイム実装に高次並列計算資源を必要とする。 しかし、セグメンテーション、検出、追跡といった他のタスクに計算資源を割り当てる必要があるため、必ずしも実現不可能ではない。 並列計算能力の制限を解消するため,本研究では,シングルコアCPU上で動作し,30Hz以上のリアルタイム性能を実現する軽量な高密度ステレオSLAMシステムを提案する。 メソッド: 新しい高密度ステレオマッピングモジュールはORB-SLAM2システムに統合され、BDIS-SLAMと名付けられた。 新しい高密度ステレオマッピングモジュールは,ステレオマッチングと3次元濃厚モザイク法を含む。 ステレオマッチングは、最近提案されたCPUレベルのリアルタイムマッチングアルゴリズムBayesian Dense Inverse Searching (BDIS)を用いて実現されている。 BDISに基づく形状回復と深度モザイク戦略を新たなスレッドとして統合し、リアルタイムステレオ形状回復のためのバックボーンORB-SLAM2システムと結合する。 結果: BDIS-SLAMは、典型的な内視鏡/大腸内視鏡のシナリオにおいて、現代のシングルコアCPU上で30Hz以上の速度で動作することを示す。 BDIS-SLAMはORB-SLAM2と比較して12%の時間しか消費しない。 我々の軽量なBDIS-SLAMは、変形や融合の手順を無視して処理を単純化するが、計算に制約のあるデバイス上での現代のMISの高密度マッピングに利用できる。 結論:提案したBDIS-SLAMはMIS用軽量ステレオ高密度SLAMシステムである。 典型的な内視鏡/コロノスコープ(画像サイズは約640*480)のシナリオにおいて、現代のシングルコアCPU上で30Hzを達成する。 BDIS-SLAMはMISの高密度マッピングのための低コストのソリューションを提供し、手術ロボットやARシステムに適用できる可能性を持っている。

Purpose: Common dense stereo Simultaneous Localization and Mapping (SLAM) approaches in Minimally Invasive Surgery (MIS) require high-end parallel computational resources for real-time implementation. Yet, it is not always feasible since the computational resources should be allocated to other tasks like segmentation, detection, and tracking. To solve the problem of limited parallel computational power, this research aims at a lightweight dense stereo SLAM system that works on a single-core CPU and achieves real-time performance (more than 30 Hz in typical scenarios). Methods: A new dense stereo mapping module is integrated with the ORB-SLAM2 system and named BDIS-SLAM. Our new dense stereo mapping module includes stereo matching and 3D dense depth mosaic methods. Stereo matching is achieved with the recently proposed CPU-level real-time matching algorithm Bayesian Dense Inverse Searching (BDIS). A BDIS-based shape recovery and a depth mosaic strategy are integrated as a new thread and coupled with the backbone ORB-SLAM2 system for real-time stereo shape recovery. Results: Experiments on in-vivo data sets show that BDIS-SLAM runs at over 30 Hz speed on modern single-core CPU in typical endoscopy/colonoscopy scenarios. BDIS-SLAM only consumes around an additional 12% time compared with the backbone ORB-SLAM2. Although our lightweight BDIS-SLAM simplifies the process by ignoring deformation and fusion procedures, it can provide a usable dense mapping for modern MIS on computationally constrained devices. Conclusion: The proposed BDIS-SLAM is a lightweight stereo dense SLAM system for MIS. It achieves 30 Hz on a modern single-core CPU in typical endoscopy/colonoscopy scenarios (image size around 640*480). BDIS-SLAM provides a low-cost solution for dense mapping in MIS and has the potential to be applied in surgical robots and AR systems.
翻訳日:2023-12-27 17:06:04 公開日:2023-12-25
# 開語彙ビデオ関係抽出

Open-Vocabulary Video Relation Extraction ( http://arxiv.org/abs/2312.15670v1 )

ライセンス: Link先を確認
Wentao Tian, Zheng Wang, Yuqian Fu, Jingjing Chen, Lechao Cheng(参考訳) ビデオの包括的理解は、アクションを文脈的アクションオブジェクトの相互作用で記述することとは分離できない。 しかしながら、現在のビデオ理解タスクの多くは、一般的なアクション分類を優先し、アクションの性質を形成するアクターと関係を見落とし、結果としてアクションの表面的理解をもたらす。 そこで我々は,行動中心関係三重項のレンズを通して行動理解を観察する新しいタスクであるOVRE(Open-vocabulary Video Relation extract)を紹介した。 OVREは、アクションに参加するペアワイズ関係に焦点を当て、これらの関係三つ子と自然言語を記述する。 さらに,マルチラベル行動分類データセットから派生した,アクション中心関係のトリプレットを持つ180kビデオからなるmoments-ovreデータセットをキュレートする。 moments-ovreでは、関係三重項を列として生成するクロスモーダル写像モデルも提案する。 最後に,OVREの新しいタスクに対して,既存のクロスモーダル生成モデルをベンチマークする。

A comprehensive understanding of videos is inseparable from describing the action with its contextual action-object interactions. However, many current video understanding tasks prioritize general action classification and overlook the actors and relationships that shape the nature of the action, resulting in a superficial understanding of the action. Motivated by this, we introduce Open-vocabulary Video Relation Extraction (OVRE), a novel task that views action understanding through the lens of action-centric relation triplets. OVRE focuses on pairwise relations that take part in the action and describes these relation triplets with natural languages. Moreover, we curate the Moments-OVRE dataset, which comprises 180K videos with action-centric relation triplets, sourced from a multi-label action classification dataset. With Moments-OVRE, we further propose a crossmodal mapping model to generate relation triplets as a sequence. Finally, we benchmark existing cross-modal generation models on the new task of OVRE.
翻訳日:2023-12-27 17:05:36 公開日:2023-12-25
# TAPE:協調的多エージェント政策勾配のためのエージェントトポロジーの活用

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient ( http://arxiv.org/abs/2312.15667v1 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Timothy J. Norman, Kaiqi Huang, Yali Du(参考訳) マルチエージェント政策グラディエント(MAPG)は近年大きな進歩を遂げている。 しかし、最先端のMAPG手法の中央集権的批判は依然として、中央集権的なミスマッチ(CDM)問題に直面しており、これは一部のエージェントによる準最適行動が他のエージェントの政策学習に影響を与えることを意味する。 政策更新に個々の批評家を使うことは、この問題を避けることができるが、エージェント間の協力を厳しく制限する。 この問題に対処するために,政策グラデーションにおいて他のエージェントを考慮すべきかどうかを判断するエージェントトポロジフレームワークを提案し,協調の促進とCDM問題の緩和の妥協を実現する。 エージェントトポロジーにより、エージェントは、中央集権的な批評家によるグローバルユーティリティや個々の批評家によるローカルユーティリティではなく、学習目的として連合ユーティリティを使用することができる。 エージェントトポロジーを構成するために、様々なモデルが研究されている。 確率的および決定論的MAPG法の両方に対して,Topology-based multi-Agent Policy gradiEnt (TAPE)を提案する。 確率テープのポリシー改善定理を証明し,エージェント間の協調性向上のための理論的説明を与える。 いくつかのベンチマーク実験の結果、エージェントトポロジはエージェント協調を促進し、それぞれCDM問題を緩和し、TAPEの性能を向上させることができることが示された。 最後に, エージェントトポロジーの有効性を示すために, 複数のアブレーション研究とヒューリスティックグラフ探索アルゴリズムが考案された。

Multi-Agent Policy Gradient (MAPG) has made significant progress in recent years. However, centralized critics in state-of-the-art MAPG methods still face the centralized-decentralized mismatch (CDM) issue, which means sub-optimal actions by some agents will affect other agent's policy learning. While using individual critics for policy updates can avoid this issue, they severely limit cooperation among agents. To address this issue, we propose an agent topology framework, which decides whether other agents should be considered in policy gradient and achieves compromise between facilitating cooperation and alleviating the CDM issue. The agent topology allows agents to use coalition utility as learning objective instead of global utility by centralized critics or local utility by individual critics. To constitute the agent topology, various models are studied. We propose Topology-based multi-Agent Policy gradiEnt (TAPE) for both stochastic and deterministic MAPG methods. We prove the policy improvement theorem for stochastic TAPE and give a theoretical explanation for the improved cooperation among agents. Experiment results on several benchmarks show the agent topology is able to facilitate agent cooperation and alleviate CDM issue respectively to improve performance of TAPE. Finally, multiple ablation studies and a heuristic graph search algorithm are devised to show the efficacy of the agent topology.
翻訳日:2023-12-27 17:05:19 公開日:2023-12-25
# 治療ペプチド生成のための多モードコントラスト拡散モデル

A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation ( http://arxiv.org/abs/2312.15665v1 )

ライセンス: Link先を確認
Yongkang Wang, Xuan Liu, Feng Huang, Zhankun Xiong, Wen Zhang(参考訳) 治療ペプチドは、ヒトの疾患の治療に必須の薬品の特異なクラスである。 近年, 深層生成モデルでは治療ペプチドの生成に顕著な可能性が示されているが, 配列情報や構造情報のみを利用するため, 発生時の性能を阻害している。 本研究では、新しいペプチド配列と構造を共生成するために、拡散フレームワークにおける配列と構造の両方のモダリティを融合したマルチモーダルコントラスト拡散モデル(mmcd)を提案する。 具体的には、mmcdはシーケンス・モーダル拡散モデルと構造・モーダル拡散モデルをそれぞれ構築し、各拡散時間ステップで相互接続性と内包性を持つマルチモーダルコントラスト学習戦略を考案し、2つのモーダル間の一貫性を捉え、モデル性能を向上させることを目的としている。 コントラスト内はペプチドの配列と構造を最大化し、コントラスト内は治療用ペプチドと非治療用ペプチドを区別し、配列/構造埋め込みの相違を最大化する。 幅広い実験により、MMCDは、抗微生物/抗がん剤スコア、多様性、ペプチドドッキングなど、さまざまな指標で治療ペプチドの生成において、他の最先端の深層生成法よりも優れた性能を示すことが示された。

Therapeutic peptides represent a unique class of pharmaceutical agents crucial for the treatment of human diseases. Recently, deep generative models have exhibited remarkable potential for generating therapeutic peptides, but they only utilize sequence or structure information alone, which hinders the performance in generation. In this study, we propose a Multi-Modal Contrastive Diffusion model (MMCD), fusing both sequence and structure modalities in a diffusion framework to co-generate novel peptide sequences and structures. Specifically, MMCD constructs the sequence-modal and structure-modal diffusion models, respectively, and devises a multi-modal contrastive learning strategy with intercontrastive and intra-contrastive in each diffusion timestep, aiming to capture the consistency between two modalities and boost model performance. The inter-contrastive aligns sequences and structures of peptides by maximizing the agreement of their embeddings, while the intra-contrastive differentiates therapeutic and non-therapeutic peptides by maximizing the disagreement of their sequence/structure embeddings simultaneously. The extensive experiments demonstrate that MMCD performs better than other state-of-theart deep generative methods in generating therapeutic peptides across various metrics, including antimicrobial/anticancer score, diversity, and peptide-docking.
翻訳日:2023-12-27 17:04:58 公開日:2023-12-25
# 相互作用による連続体の多粒子結合状態

Interaction-induced multiparticle bound states in the continuum ( http://arxiv.org/abs/2312.15664v1 )

ライセンス: Link先を確認
Boning Huang, Yongguan Ke, Honghua Zhong, Yuri S. Kivshar, Chaohong Lee(参考訳) 連続体(BIC)における境界状態は、放射線連続体に属する局所的なモードである。 これらは最初、単粒子状態に対して予測され、多くの波動系の一般的な特徴となった。 多体量子物理学では、BICの類似性や粒子間相互作用がBICを誘導するかどうかはまだ分かっていない。 本稿では,BICの概念に関連付けられる相互作用変調Bose-Hubbardモデルにおいて,新しい種類の多粒子状態を予測する。 周期的境界条件下では、いわゆる準BICは、第3粒子によって形成された定常波に属する有界対として現れる。 開境界条件下では、そのようなハイブリッド状態はシステムの固有状態となる。 準BICのThoulessポンプは、空間と時間におけるオンサイト相互作用を変調することで実現可能であることを示す。 驚くべきことに、準BICの質量中心が1サイクルで単位セルによって移動されている間、有界対は定常波と反対方向に移動する。

Bound states in the continuum (BICs) are localized modes residing in the radiation continuum. They were first predicted for single-particle states, and became a general feature of many wave systems. In many-body quantum physics, it is still unclear what would be a close analog of BICs, and whether interparticle interaction may induce BICs. Here, we predict a novel type of multiparticle states in the interaction-modulated Bose-Hubbard model that can be associated with the BIC concept. Under periodic boundary conditions, a so-called quasi-BIC appears as a bounded pair residing in a standing wave formed by the third particle. Under open boundary conditions, such a hybrid state becomes an eigenstate of the system. We demonstrate that the Thouless pumping of the quasi-BICs can be realized by modulating the on-site interactions in space and time. Surprisingly, while the center-of-mass of the quasi-BIC is shifted by a unit cell in one cycle, the bounded pair moves into the opposite direction with the standing wave.
翻訳日:2023-12-27 17:04:34 公開日:2023-12-25
# IQAGPT:視覚言語とチャットGPTモデルによる画像品質評価

IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models ( http://arxiv.org/abs/2312.15663v1 )

ライセンス: Link先を確認
Zhihao Chen, Bin Hu, Chuang Niu, Tao Chen, Yuxin Li, Hongming Shan, Ge Wang(参考訳) ChatGPTのような大規模言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示し、多くのドメインで自然言語インターフェースとして関心を集めている。 近年,BLIP-2 や GPT-4 のような大規模視覚言語モデル (VLM) が盛んに研究され,画像とテキストのペアからリッチな視覚言語相関を学習している。 しかし、これらの進展にもかかわらず、特に医用画像における画質評価(iqa)におけるllmsとvlmsの応用は、客観的な性能評価や放射線科医の意見の補足、さらには代替に有用である。 そこで本研究では,画像品質評価システムであるIQAGPTを紹介し,品質スコアとテキストレポートを生成するために,画像品質キャプションVLMとChatGPTを統合した。 まず,訓練と評価のためのct-iqaデータセットを構築し,さまざまな品質レベルを専門的にアノテートした1,000のctスライスを作成した。 LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。 次に、CT-IQAデータセット上の画像品質キャプションVLMを微調整し、品質記述を生成する。 キャプションモデルは、画像とテキストの特徴を横断的注意を通して融合する。 第3に、品質記述に基づいて、ユーザーはChatGPTと話し、画像の品質スコアを評価したり、無線品質レポートを作成することができる。 予備実験の結果,大規模モデルによる画質評価が可能となった。 我々のIQAGPTはGPT-4やCLIP-IQAよりも優れており、画像のみに依存するマルチタスク分類や回帰モデルも優れている。

Large language models (LLMs), such as ChatGPT, have demonstrated impressive capabilities in various tasks and attracted an increasing interest as a natural language interface across many domains. Recently, large vision-language models (VLMs) like BLIP-2 and GPT-4 have been intensively investigated, which learn rich vision-language correlation from image-text pairs. However, despite these developments, the application of LLMs and VLMs in image quality assessment (IQA), particularly in medical imaging, remains to be explored, which is valuable for objective performance evaluation and potential supplement or even replacement of radiologists' opinions. To this end, this paper introduces IQAGPT, an innovative image quality assessment system integrating an image quality captioning VLM with ChatGPT for generating quality scores and textual reports. First, we build a CT-IQA dataset for training and evaluation, comprising 1,000 CT slices with diverse quality levels professionally annotated. To better leverage the capabilities of LLMs, we convert annotated quality scores into semantically rich text descriptions using a prompt template. Second, we fine-tune the image quality captioning VLM on the CT-IQA dataset to generate quality descriptions. The captioning model fuses the image and text features through cross-modal attention. Third, based on the quality descriptions, users can talk with ChatGPT to rate image quality scores or produce a radiological quality report. Our preliminary results demonstrate the feasibility of assessing image quality with large models. Remarkably, our IQAGPT outperforms GPT-4 and CLIP-IQA, as well as the multi-task classification and regression models that solely rely on images.
翻訳日:2023-12-27 17:04:20 公開日:2023-12-25
# 説明可能な勧告のための大規模言語モデルの可能性の解き放つ

Unlocking the Potential of Large Language Models for Explainable Recommendations ( http://arxiv.org/abs/2312.15661v1 )

ライセンス: Link先を確認
Yucong Luo, Mingyue Cheng, Hao Zhang, Junyu Lu, Enhong Chen(参考訳) オンラインサービスを利用する際に、ユーザの信頼を高め、よりインフォームドな意思決定を容易にする言語生成技術の進歩により、アイテムが推奨される理由に関するユーザフレンドリな説明がますます一般的になっている。 しかし、既存の説明可能なレコメンデーションシステムは、小型言語モデルの使用に重点を置いている。 説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。 前例のない結果が期待できますか。 本研究では,LLMXRecを提案する。LLMXRecはシンプルだが効果的な2段階説明可能な推薦フレームワークである。 既存のLLMベースのレコメンデーションワークとは異なり、LLMXRecの重要な特徴は、以前のレコメンデーターモデルとLCMベースの説明ジェネレータの密接なコラボレーションである。 具体的には、パラメータ効率の指導的チューニングやパーソナライズされたプロンプト技術など、いくつかの重要な微調整手法を採用することで、説明の目的を達成するために、制御可能で流動的な説明を生成することができる。 とくに、説明の有効性を評価するために、3つの異なる視点を提供する。 最後に、いくつかのベンチマークレコメンデータモデルと公開データセットについて広範な実験を行う。 実験の結果は有効性と効率の点で肯定的な結果を得るだけでなく、これまで知らなかった結果も明らかにする。 この領域のさらなる調査を容易にするため、完全なコードと詳細なオリジナルの結果はhttps://anonymous.4open.science/r/LLM_rec_explanation-7028/でオープンソース化されている。

Generating user-friendly explanations regarding why an item is recommended has become increasingly common, largely due to advances in language generation technology, which can enhance user trust and facilitate more informed decision-making when using online services. However, existing explainable recommendation systems focus on using small-size language models. It remains uncertain what impact replacing the explanation generator with the recently emerging large language models (LLMs) would have. Can we expect unprecedented results? In this study, we propose LLMXRec, a simple yet effective two-stage explainable recommendation framework aimed at further boosting the explanation quality by employing LLMs. Unlike most existing LLM-based recommendation works, a key characteristic of LLMXRec is its emphasis on the close collaboration between previous recommender models and LLM-based explanation generators. Specifically, by adopting several key fine-tuning techniques, including parameter-efficient instructing tuning and personalized prompt techniques, controllable and fluent explanations can be well generated to achieve the goal of explanation recommendation. Most notably, we provide three different perspectives to evaluate the effectiveness of the explanations. Finally, we conduct extensive experiments over several benchmark recommender models and publicly available datasets. The experimental results not only yield positive results in terms of effectiveness and efficiency but also uncover some previously unknown outcomes. To facilitate further explorations in this area, the full code and detailed original results are open-sourced at https://anonymous.4open.science/r/LLM_rec_explanation-7028/
翻訳日:2023-12-27 17:03:53 公開日:2023-12-25
# ネットワークにおける施設配置問題に対するスワップベース深層強化学習

Swap-based Deep Reinforcement Learning for Facility Location Problems in Networks ( http://arxiv.org/abs/2312.15658v1 )

ライセンス: Link先を確認
Wenxuan Guo, Yanyan Xu, Yaohui Jin(参考訳) グラフ上の施設位置問題は実世界でユビキタスであり、重要な意味を持つが、その解決はしばしばNPハードネスによって妨げられる。 近年,このような古典的問題に対処するための機械学習手法が提案されているが,これは筋電図構築パターンに限られており,ユークリッド空間における問題のみを考えることができる。 これらの制約を克服するために, p-median問題とグラフ上の施設配置問題に対処する汎用スワップベースフレームワークと, 複雑なグラフ構造を意識した新しい強化学習モデルを提案する。 提案手法は,ソリューションの品質と実行時間のバランスを両立させ,複雑なグラフデータセットにおける手作りのヒューリスティックを上回っている。 さらに,従来の問題に対する大規模データセット構築を容易にし,オンデマンドで現実の都市道路網をシミュレートするグラフ生成プロセスを導入する。 施設の配置を初期化するために, p-median問題に対する物理に触発された戦略を導入し, ランダム戦略よりもより安定な解に到達した。 従来のスワップ法と深層強化学習を結合したパイプラインは,グラフ上の施設配置に関わる現実的な課題に対処する上で,大きな一歩となる。

Facility location problems on graphs are ubiquitous in real world and hold significant importance, yet their resolution is often impeded by NP-hardness. Recently, machine learning methods have been proposed to tackle such classical problems, but they are limited to the myopic constructive pattern and only consider the problems in Euclidean space. To overcome these limitations, we propose a general swap-based framework that addresses the p-median problem and the facility relocation problem on graphs and a novel reinforcement learning model demonstrating a keen awareness of complex graph structures. Striking a harmonious balance between solution quality and running time, our method surpasses handcrafted heuristics on intricate graph datasets. Additionally, we introduce a graph generation process to simulate real-world urban road networks with demand, facilitating the construction of large datasets for the classic problem. For the initialization of the locations of facilities, we introduce a physics-inspired strategy for the p-median problem, reaching more stable solutions than the random strategy. The proposed pipeline coupling the classic swap-based method with deep reinforcement learning marks a significant step forward in addressing the practical challenges associated with facility location on graphs.
翻訳日:2023-12-27 17:03:21 公開日:2023-12-25
# 変分量子線形解法の事前条件付け

Preconditioning for a Variational Quantum Linear Solver ( http://arxiv.org/abs/2312.15657v1 )

ライセンス: Link先を確認
Aruto Hosaka, Koichi Yanagisawa, Shota Koshikawa, Isamu Kudo, Xiafukaiti Alifu and Tsuyoshi Yoshida(参考訳) 線形系に対して古典的解法において広く用いられるプリコンディショニングを、変分量子線形解に対して適用する。 128\times128$のランダムスパース行列によって形成される線形方程式のプリコンディショナーとして不完全lu因子分解を利用することで、必要なアンサッツ深さの顕著な減少を数値的に証明し、量子アルゴリズムにもプレコンディショニングが有用であることを示す。 この回路深さの低減は、ノイズ中間スケール量子(NISQ)アルゴリズムの効率と精度を向上させる鍵となる。 量子アルゴリズムとプレコンディショニングのような古典的計算技術を組み合わせることで,NISQアルゴリズムの性能が大幅に向上することが示唆された。

We apply preconditioning, widely used in classical solvers for linear systems $A\textbf{x}=\textbf{b}$, to the Variational Quantum Linear Solver. By utilizing Incomplete LU factorization as a preconditioner for linear equations formed by $128\times128$ random sparse matrices, we numerically demonstrate a notable reduction in the required ansatz depth, thereby clarifying that preconditioning is useful for quantum algorithms as well. This reduction in circuit depth is key to improving the efficiency and accuracy of Noisy Intermediate-Scale Quantum (NISQ) algorithms. Our findings suggest that combining classical computing techniques like preconditioning with quantum algorithms can significantly enhance their performance in NISQ algorithms.
翻訳日:2023-12-27 17:02:59 公開日:2023-12-25
# ローゼン・モース散乱状態に対するルジャンドル関数の一般化

Generalization of Legendre functions applied to Rosen-Morse scattering states ( http://arxiv.org/abs/2312.15652v1 )

ライセンス: Link先を確認
F. L. Freitas(参考訳) 関連するレジェンド関数の一般化が提案され、ローゼン・モースポテンシャルの散乱状態を記述するために用いられる。 関数は、超幾何関数の言葉で明示的な式が与えられ、その漸近的な振る舞いを調べ、全反射領域と部分反射領域の状態の要求に合致するように示される。 反射係数と透過係数の基本的な式が与えられ、一般化されたルジャンドル関数の積分恒等式が証明され、散乱状態に対する誘導積分変換のスペクトル測度が計算される。 これらの手法は、経路積分法を必要とせず、ポテンシャルに対する完全な古典解を与える。

A generalization of associated Legendre functions is proposed and used to describe the scattering states of the Rosen-Morse potential. The functions are then given explicit formulas in terms of the hypergeometric function, their asymptotic behavior is examined and shown to match the requirements for states in the regions of total and partial reflection. Elementary expressions are given for reflection and transmission coefficients, and an integral identity for the generalized Legendre functions is proven, allowing the calculation of the spectral measure of the induced integral transform for the scattering states. These methods provide a complete classical solution to the potential, without need of path integral techniques.
翻訳日:2023-12-27 17:02:43 公開日:2023-12-25
# UniRef++: 空間空間と時間空間におけるすべての参照オブジェクトのセグメンテーション

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces ( http://arxiv.org/abs/2312.15715v1 )

ライセンス: Link先を確認
Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo(参考訳) 参照ベースのオブジェクトセグメンテーションタスク、すなわち、画像セグメンテーション(RIS)、少数ショット画像セグメンテーション(FSS)、ビデオオブジェクトセグメンテーション(RVOS)、ビデオオブジェクトセグメンテーション(VOS)は、言語または注釈付きマスクを基準として特定のオブジェクトをセグメンテーションすることを目指している。 それぞれの分野において著しい進歩にもかかわらず、現在の手法はタスク固有の設計と異なる方向に開発されており、タスクのマルチタスク機能の活性化を妨げている。 本稿では,現状の断片化を終わらせ,単一アーキテクチャによる4つの参照ベースオブジェクトセグメンテーションタスクを統合するためのuniref++を提案する。 提案するUniFusionモジュールは,特定の参照に対して異なるタスクを処理するためのマルチウェイフュージョンを実行する。 そして、インスタンスレベルのセグメンテーションを達成するために統一トランスフォーマーアーキテクチャが採用される。 統一された設計により、uniref++は幅広いベンチマークで共同でトレーニングでき、対応する参照を指定することで、実行時に複数のタスクを柔軟に完了することができる。 様々なベンチマークで統一モデルを評価する。 提案した UniRef++ は RIS および RVOS 上での最先端性能を実現し,パラメータ共有ネットワークを用いた FSS と VOS 上での競合性能を示す。 さらに,提案したUniFusionモジュールは,現在の基礎モデルSAMに容易に組み込むことができ,パラメータ効率の良い微調整による良好な結果が得られることを示した。 コードとモデルは \url{https://github.com/FoundationVision/UniRef} で公開されている。

The reference-based object segmentation tasks, namely referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS), and video object segmentation (VOS), aim to segment a specific object by utilizing either language or annotated masks as references. Despite significant progress in each respective field, current methods are task-specifically designed and developed in different directions, which hinders the activation of multi-task capabilities for these tasks. In this work, we end the current fragmented situation and propose UniRef++ to unify the four reference-based object segmentation tasks with a single architecture. At the heart of our approach is the proposed UniFusion module which performs multiway-fusion for handling different tasks with respect to their specified references. And a unified Transformer architecture is then adopted for achieving instance-level segmentation. With the unified designs, UniRef++ can be jointly trained on a broad range of benchmarks and can flexibly complete multiple tasks at run-time by specifying the corresponding references. We evaluate our unified models on various benchmarks. Extensive experimental results indicate that our proposed UniRef++ achieves state-of-the-art performance on RIS and RVOS, and performs competitively on FSS and VOS with a parameter-shared network. Moreover, we showcase that the proposed UniFusion module could be easily incorporated into the current advanced foundation model SAM and obtain satisfactory results with parameter-efficient finetuning. Codes and models are available at \url{https://github.com/FoundationVision/UniRef}.
翻訳日:2023-12-27 16:56:23 公開日:2023-12-25
# PersianLLaMA: 初のペルシア語大規模言語モデルの構築を目指す

PersianLLaMA: Towards Building First Persian Large Language Model ( http://arxiv.org/abs/2312.15713v1 )

ライセンス: Link先を確認
Mohammad Amin Abbasi, Arash Ghafouri, Mahdi Firouzmandi, Hassan Naderi and Behrouz Minaei Bidgoli(参考訳) ペルシャ語の使用は世界中で数百万人にものぼるが、自然言語処理の努力は限られている。 様々な自然言語処理タスクに有効なツールとして大きな言語モデルを使用することは、典型的には広範囲のテキストデータと堅牢なハードウェアリソースを必要とする。 その結果、ペルシア語のテキストデータの不足と強力なハードウェア資源の入手不能は、ペルシア語のための大規模言語モデルの開発を妨げている。 本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語LLaMAを紹介する。 この基本的なモデルには2つのバージョンがあり、7億のパラメータと130億のパラメータが、2つの異なるアプローチで形式的および口語的ペルシア語テキストでトレーニングされている。 PersianLLaMAは、より大規模な言語モデルを用いた最新の評価手法に基づく自然言語生成タスクや、自動機械メトリクスに基づく自然言語理解タスクに対して評価されている。 その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。 ペルシャラマはペルシア語自然言語処理の発展において重要なステップであり、ペルシア語話者のコミュニティにとって貴重な資源である。 この大きな言語モデルは、様々な自然言語処理タスク、特にチャットボット、質問応答、機械翻訳、テキスト要約などのテキスト生成に使用できる。

Despite the widespread use of the Persian language by millions globally, limited efforts have been made in natural language processing for this language. The use of large language models as effective tools in various natural language processing tasks typically requires extensive textual data and robust hardware resources. Consequently, the scarcity of Persian textual data and the unavailability of powerful hardware resources have hindered the development of large language models for Persian. This paper introduces the first large Persian language model, named PersianLLaMA, trained on a collection of Persian texts and datasets. This foundational model comes in two versions, with 7 and 13 billion parameters, trained on formal and colloquial Persian texts using two different approaches. PersianLLaMA has been evaluated for natural language generation tasks based on the latest evaluation methods, namely using larger language models, and for natural language understanding tasks based on automated machine metrics. The results indicate that PersianLLaMA significantly outperforms its competitors in both understanding and generating Persian text. PersianLLaMA marks an important step in the development of Persian natural language processing and can be a valuable resource for the Persian-speaking community. This large language model can be used for various natural language processing tasks, especially text generation like chatbots, question-answering, machine translation, and text summarization
翻訳日:2023-12-27 16:55:51 公開日:2023-12-25
# 誘発幻覚による大規模言語モデルの幻覚緩和

Alleviating Hallucinations of Large Language Models through Induced Hallucinations ( http://arxiv.org/abs/2312.15710v1 )

ライセンス: Link先を確認
Yue Zhang, Leyang Cui, Wei Bi, Shuming Shi(参考訳) 彼らの印象的な能力にもかかわらず、大きな言語モデル(LLM)は不正確な情報や製造された情報を含む応答を生成するために観察されてきた。 本研究は,幻覚を緩和するための単純な \textit{induce-then-contrast} decoding (icd) 戦略を提案する。 まず,本来のLLMから幻覚を誘導することにより,現実的に弱いLLMを構築する。 そして,デコード中に誘導された幻覚をペナルティ化し,生成したコンテンツの事実性を高める。 具体的には、元のモデルからの予測を増幅し、コントラスト復号により誘発された不正確な予測を軽視することにより、最終的な次の予測を決定する。 TruthfulQA や \textsc{FActScore} のような識別に基づく幻覚評価ベンチマークと世代別幻覚評価ベンチマークによる実験結果から,提案手法は様々なモデルサイズや家族におけるLCMの事実性を効果的に向上できることを示した。 例えば、ICDを搭載した場合、Llama2-7B-Chat と Mistral-7B-Instruct はそれぞれ TruthfulQA 上で ChatGPT と GPT4 に匹敵する性能を達成する。

Despite their impressive capabilities, large language models (LLMs) have been observed to generate responses that include inaccurate or fabricated information, a phenomenon commonly known as ``hallucination''. In this work, we propose a simple \textit{Induce-then-Contrast} Decoding (ICD) strategy to alleviate hallucinations. We first construct a factually weak LLM by inducing hallucinations from the original LLMs. Then, we penalize these induced hallucinations during decoding to enhance the factuality of the generated content. Concretely, we determine the final next-token predictions by amplifying the predictions from the original model and downplaying the induced untruthful predictions via contrastive decoding. Experimental results on both discrimination-based and generation-based hallucination evaluation benchmarks, such as TruthfulQA and \textsc{FActScore}, demonstrate that our proposed ICD methods can effectively enhance the factuality of LLMs across various model sizes and families. For example, when equipped with ICD, Llama2-7B-Chat and Mistral-7B-Instruct achieve performance comparable to ChatGPT and GPT4 on TruthfulQA, respectively.
翻訳日:2023-12-27 16:55:30 公開日:2023-12-25
# TimesURL:Universal Time Series Representation Learningのための自己教師型コントラスト学習

TimesURL: Self-supervised Contrastive Learning for Universal Time Series Representation Learning ( http://arxiv.org/abs/2312.15709v1 )

ライセンス: Link先を確認
Jiexi Liu, Songcan Chen(参考訳) 様々なダウンストリームタスクに適用可能なユニバーサル時系列表現の学習は困難だが、実際のアプリケーションでは有用である。 近年,コンピュータビジョン (CV) と自然言語処理 (NLP) における自己教師付きコントラスト学習 (SSCL) の成功を活用して時系列表現に取り組みつつある。 それにもかかわらず、特別な時間的特性のため、他のドメインからの経験的ガイダンスのみに依存することは、時系列に効果がなく、複数の下流タスクに適応するのが困難である。 この目的のために、SSCLを含む3つの部分についてレビューする。 1)正の対の増分法を設計すること。 2)(硬い)負の対の構築、及び 3)SSCL損失を設計する。 のために 1) と 2) 不適合な正と負のペア構成は不適切な帰納的バイアスをもたらす可能性があり, 時間的性質を保たず, 十分な判別的特徴も持たない。 3) セグメンテーションやインスタンスレベルのセマンティクス情報を探索するだけでは、普遍表現を学ぶには不十分です。 上記の課題を解決するために,TimesURL という新しい自己組織化フレームワークを提案する。 具体的には、時間的特性を一定に保つために、まず周波数時間に基づく拡張を導入する。 そして,2つの大学を,より対照的な学習を導くために,特殊な難易度として構築する。 さらに,セグメントレベル情報とインスタンスレベルの情報の両方をキャプチャするために,コントラスト学習と共同最適化の目的として時間再構成を導入する。 その結果、TimesURLは高品質な普遍表現を学習し、短期および長期予測、計算、分類、異常検出、転送学習を含む6種類の下流タスクで最先端のパフォーマンスを達成することができる。

Learning universal time series representations applicable to various types of downstream tasks is challenging but valuable in real applications. Recently, researchers have attempted to leverage the success of self-supervised contrastive learning (SSCL) in Computer Vision(CV) and Natural Language Processing(NLP) to tackle time series representation. Nevertheless, due to the special temporal characteristics, relying solely on empirical guidance from other domains may be ineffective for time series and difficult to adapt to multiple downstream tasks. To this end, we review three parts involved in SSCL including 1) designing augmentation methods for positive pairs, 2) constructing (hard) negative pairs, and 3) designing SSCL loss. For 1) and 2), we find that unsuitable positive and negative pair construction may introduce inappropriate inductive biases, which neither preserve temporal properties nor provide sufficient discriminative features. For 3), just exploring segment- or instance-level semantics information is not enough for learning universal representation. To remedy the above issues, we propose a novel self-supervised framework named TimesURL. Specifically, we first introduce a frequency-temporal-based augmentation to keep the temporal property unchanged. And then, we construct double Universums as a special kind of hard negative to guide better contrastive learning. Additionally, we introduce time reconstruction as a joint optimization objective with contrastive learning to capture both segment-level and instance-level information. As a result, TimesURL can learn high-quality universal representations and achieve state-of-the-art performance in 6 different downstream tasks, including short- and long-term forecasting, imputation, classification, anomaly detection and transfer learning.
翻訳日:2023-12-27 16:55:08 公開日:2023-12-25
# 高忠実拡散に基づく画像編集

High-Fidelity Diffusion-based Image Editing ( http://arxiv.org/abs/2312.15707v1 )

ライセンス: Link先を確認
Chen Hou, Guoqiang Wei, Zhibo Chen(参考訳) 拡散モデルは画像生成と編集の分野で顕著な成功を収めている。 拡散モデルにおけるインバージョンとデノナイジングのステップを大きくすることで、画像再構成の品質が向上することが広く認識されている。 しかし,拡散モデルの編集性能は,デノナイジングステップが増加しても満足できない傾向にある。 編集の不足は、編集過程の条件付きマルコフ的性質に起因する可能性がある。 この課題に取り組むため,まず整流器モジュールを組み込んで拡散モデル重みを残差で変調し,忠実度ギャップを橋渡しするための補償情報を提供する革新的な枠組みを提案する。 さらに,編集過程における誤り伝播を最小限に抑えることを目的とした新しい学習パラダイムを提案する。 提案するフレームワークとトレーニング戦略は,様々な段階の認知段階における高忠実度再構築と編集を達成し,定量的評価と定性評価の両面において優れた性能を示した。 さらに,画像から画像への変換や領域外画像編集などの応用を通して,モデルの一般化について検討する。

Diffusion models have attained remarkable success in the domains of image generation and editing. It is widely recognized that employing larger inversion and denoising steps in diffusion model leads to improved image reconstruction quality. However, the editing performance of diffusion models tends to be no more satisfactory even with increasing denoising steps. The deficiency in editing could be attributed to the conditional Markovian property of the editing process, where errors accumulate throughout denoising steps. To tackle this challenge, we first propose an innovative framework where a rectifier module is incorporated to modulate diffusion model weights with residual features, thereby providing compensatory information to bridge the fidelity gap. Furthermore, we introduce a novel learning paradigm aimed at minimizing error propagation during the editing process, which trains the editing procedure in a manner similar to denoising score-matching. Extensive experiments demonstrate that our proposed framework and training strategy achieve high-fidelity reconstruction and editing results across various levels of denoising steps, meanwhile exhibits exceptional performance in terms of both quantitative metric and qualitative assessments. Moreover, we explore our model's generalization through several applications like image-to-image translation and out-of-domain image editing.
翻訳日:2023-12-27 16:54:40 公開日:2023-12-25
# 2入力および2出力設定のベル非局所性に対する遠隔連接者における測定不適合性

Measurement incompatibility at remote entangled parties is insufficient for Bell nonlocality in two-input and two-output setting ( http://arxiv.org/abs/2312.15705v1 )

ライセンス: Link先を確認
Priya Ghosh, Chirag Srivastava, Swati Choudhary, Edwin Peter Lobo, Ujjwal Sen(参考訳) 2つの空間的に分離されたパーティ間のベル非局所相関を得るのに必要な2つの重要な要素は、それら間で共有される絡み合った状態と、それぞれが使用する非互換な測定セットである。 2入力と2出力のシナリオにおいて,ベル非局所性と両当事者が採用する測定値の非互換性の関係に注目した。 ベル非局所性は、双方が互いに非互換な射影的測定を行う場合に常に確立できる。 一方、射影的測定を超越して、両オブザーバが採用する非互換な正の演算子値測度のクラスを示し、ベル非局所性を活性化することはできない。 次に、任意の非互換な射影測度を用いて、当事者が固定量の純2量子絡み合いを共有する場合に、クローザ・ホーネ・シモニー・ホルトベル式を最適化する。 これは、ベル非局所相関を達成するために、当事者が採用すべき測定値の最小の絡み合いと非互換性の程度を見つけるのに役立つ。

Two important ingredients necessary for obtaining Bell nonlocal correlations between two spatially separated parties are an entangled state shared between them and an incompatible set of measurements employed by each of them. We focus on the relation of Bell nonlocality with incompatibility of the set of measurements employed by both the parties, in the two-input and two-output scenario. We first observe that Bell nonlocality can always be established in case both parties employ any set of incompatible projective measurements. On the other hand, going beyond projective measurements, we present a class of incompatible positive operator-valued measures, employed by both the observers, which can never activate Bell nonlocality. Next, we optimize the Clauser-Horne-Shimony-Holt Bell expression in the case where the parties share a fixed amount of pure two-qubit entanglement, with any incompatible set of projective measurements. This helps to find the minimum entanglement and degree of incompatibility of measurements that the parties should employ, in order to achieve Bell nonlocal correlations.
翻訳日:2023-12-27 16:54:18 公開日:2023-12-25
# 3つの頭は1より優れている:長期学習のための補完的専門家

Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning ( http://arxiv.org/abs/2312.15702v1 )

ライセンス: Link先を確認
Chengcheng Ma, Ismail Elezi, Jiankang Deng, Weiming Dong, Changsheng Xu(参考訳) 我々は,ラベル付きデータが不均衡なクラス分布を示し,ラベルなしデータが未知の分布に従う,long-tailed semi-supervised learning (ltssl)の課題に対処する。 バランスの取れたSSLとは異なり、生成された擬似ラベルはヘッドクラスにスキューされ、トレーニングバイアスが強化される。 このような現象はさらに増幅され、ラベル付きデータセットとラベル付きデータセットのクラス分布がミスマッチした場合、より多くのラベル付きデータがヘッドクラスとして誤ってラベル付けされる。 そこで本研究では,ComPlementary Experts (CPE) という新しい手法を提案する。 具体的には、複数の専門家に様々なクラス分布をモデル化するよう訓練し、それぞれが高品質な擬似ラベルを1種類のクラス分布で生成する。 さらに,頭部クラスと非頭部クラス間の特徴分布ミスマッチによる性能劣化を回避するために,CPEのクラスワイドバッチ正規化を導入する。 CPEは、CIFAR-10-LT、CIFAR-100-LT、STL-10-LTのベンチマークで最先端のパフォーマンスを達成する。 例えば、CIFAR-10-LTでは、CPEはベースラインよりも2.2%以上精度が向上している。 コードはhttps://github.com/machengcheng2016/CPE-LTSSLで公開されている。

We address the challenging problem of Long-Tailed Semi-Supervised Learning (LTSSL) where labeled data exhibit imbalanced class distribution and unlabeled data follow an unknown distribution. Unlike in balanced SSL, the generated pseudo-labels are skewed towards head classes, intensifying the training bias. Such a phenomenon is even amplified as more unlabeled data will be mislabeled as head classes when the class distribution of labeled and unlabeled datasets are mismatched. To solve this problem, we propose a novel method named ComPlementary Experts (CPE). Specifically, we train multiple experts to model various class distributions, each of them yielding high-quality pseudo-labels within one form of class distribution. Besides, we introduce Classwise Batch Normalization for CPE to avoid performance degradation caused by feature distribution mismatch between head and non-head classes. CPE achieves state-of-the-art performances on CIFAR-10-LT, CIFAR-100-LT, and STL-10-LT dataset benchmarks. For instance, on CIFAR-10-LT, CPE improves test accuracy by over >2.22% compared to baselines. Code is available at https://github.com/machengcheng2016/CPE-LTSSL.
翻訳日:2023-12-27 16:53:55 公開日:2023-12-25
# 画像復元における深部展開法における回転同変近似演算子

Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration ( http://arxiv.org/abs/2312.15701v1 )

ライセンス: Link先を確認
Jiahong Fu, Qi Xie, Deyu Meng and Zongben Xu(参考訳) deep unfoldingアプローチは、従来の画像処理モデリングマナーと、より最近のディープラーニング技術とをうまく結びつけるコンピュータビジョンタスクにおいて、大きな注目を集めている。 具体的には、各実装ステップにおけるアルゴリズム演算子と各レイヤ内のネットワークモジュールとの直接対応を確立することで、高い解釈性を持つほぼ「ホワイトボックス」ネットワークアーキテクチャを合理的に構築することができる。 このアーキテクチャでは、近位ネットワークとして知られる近位演算子の事前定義されたコンポーネントのみ手動設定が必要であり、ネットワークはデータ駆動方式で内在的なイメージを自動的に抽出することができる。 現在の深層展開法では、そのような近位ネットワークは一般的にCNNアーキテクチャとして設計されており、その必要性は最近の理論によって証明されている。 すなわち、cnn構造は、様々な種類の画像に対して最も普遍的に保持される構造である、翻訳不変像を実質的に伝達する。 しかし、標準的なCNNベースの近位ネットワークは、回転対称性を前もって捉えるのに必須の制限がある。 これは、深い展開アプローチにおけるさらなるパフォーマンス改善のための大きな余地を残している。 この問題に対処するため,本研究では,深い展開枠組みに回転対称性を効果的に組み込む高精度な回転同変近距離ネットワークを提案する。 特に、任意の回転度以下の任意の層を持つそのような設計された近位ネットワークの理論的等変誤差を初めて推定する。 この分析は、そのような誤り評価の最も洗練された理論的な結論であり、本質的な解釈可能性要件を持つネットワークの背後にある理論的根拠を支持する上でも不可欠である。

The deep unfolding approach has attracted significant attention in computer vision tasks, which well connects conventional image processing modeling manners with more recent deep learning techniques. Specifically, by establishing a direct correspondence between algorithm operators at each implementation step and network modules within each layer, one can rationally construct an almost ``white box'' network architecture with high interpretability. In this architecture, only the predefined component of the proximal operator, known as a proximal network, needs manual configuration, enabling the network to automatically extract intrinsic image priors in a data-driven manner. In current deep unfolding methods, such a proximal network is generally designed as a CNN architecture, whose necessity has been proven by a recent theory. That is, CNN structure substantially delivers the translational invariant image prior, which is the most universally possessed structural prior across various types of images. However, standard CNN-based proximal networks have essential limitations in capturing the rotation symmetry prior, another universal structural prior underlying general images. This leaves a large room for further performance improvement in deep unfolding approaches. To address this issue, this study makes efforts to suggest a high-accuracy rotation equivariant proximal network that effectively embeds rotation symmetry priors into the deep unfolding framework. Especially, we deduce, for the first time, the theoretical equivariant error for such a designed proximal network with arbitrary layers under arbitrary rotation degrees. This analysis should be the most refined theoretical conclusion for such error evaluation to date and is also indispensable for supporting the rationale behind such networks with intrinsic interpretability requirements.
翻訳日:2023-12-27 16:53:37 公開日:2023-12-25
# D次元空間における可換シュリンガー方程式

Conformable Schr\"odinger Equation in D-dimensional space ( http://arxiv.org/abs/2312.15700v1 )

ライセンス: Link先を確認
Eqab.M.Rabei, Mohamed Ghaleb Al-Masaeed, Sami I. Muslih, and Dumitru Baleanu(参考訳) 本研究では,n個の空間座標の分数次元系に対する時間依存適合性schr\"odinger方程式を拡張し,異方性および拘束性のある系を効果的に記述する。 特にN-極座標系やN-カルテシアン座標系における自由粒子共形Schr\"odinger波動力学の具体的な例が示されている。 整合形の量は、$\beta=1$のとき、対応する伝統的な量と正確に一致している。

In this work, we extend the time-dependent conformable Schr\"odinger equation for a fractional dimensional system of N spatial coordinates to be used as an effective description of anisotropic and confined systems. A specific example is looked at in free particle conformable Schr\"odinger wave mechanics, particularly in N-Polar coordinates and N-Cartesian coordinates systems. The quantities of the conformable form are found to be in exact agreement with the corresponding traditional quantities when $\beta=1$
翻訳日:2023-12-27 16:53:11 公開日:2023-12-25
# repairLLaMA: プログラム修復のための効率的な表現と微調整アダプタ

RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair ( http://arxiv.org/abs/2312.15698v1 )

ライセンス: Link先を確認
Andr\'e Silva, Sen Fang, Martin Monperrus(参考訳) APR(Automated Program repair)は、LLM(Large Language Models)の出現によって大きく進化した。 プログラム修復のための微調整LDMは最近の研究の道であり、多くの次元がまだ探索されていない。 既存の作業は、コード表現が単純で、大きなLLMを微調整する能力に基本的に制限がある。 この問題に対処するため,我々は,新しいプログラム修復手法である repairllama を提案する。 1) apr と apr のコード表現 2) LLMファインチューニング技術であるLoRAについて検討した。 この結果、LLaMAは言語モデルでバグを修正するのに非常に効果的な'プログラム修復アダプタ'を作成した。 両概念の妥当性を示す実験を行った。 まず、プログラムの補修固有のコード表現を備えた微調整アダプタにより、意味のある補修信号を使用することができる。 第二に、パラメータ効率の良い微調整は微調整の収束に役立ち、微調整データ分布外のデータポイントを修正するための補修アダプタの有効性に寄与する。 repairLLaMAは、125 Defects4J v2と82 HumanEval-Javaのバグを正しく修正し、すべてのベースラインを上回っている。

Automated Program Repair (APR) has evolved significantly with the advent of Large Language Models (LLMs). Fine-tuning LLMs for program repair is a recent avenue of research, with many dimensions which have not been explored. Existing work mostly fine-tunes LLMs with naive code representations and is fundamentally limited in its ability to fine-tune larger LLMs. To address this problem, we propose RepairLLaMA, a novel program repair approach that combines 1) code representations for APR and 2) the state-of-the-art parameter-efficient LLM fine-tuning technique called LoRA. This results in RepairLLaMA producing a highly effective `program repair adapter' for fixing bugs with language models. Our experiments demonstrate the validity of both concepts. First, fine-tuning adapters with program repair specific code representations enables the model to use meaningful repair signals. Second, parameter-efficient fine-tuning helps fine-tuning to converge and contributes to the effectiveness of the repair adapter to fix data-points outside the fine-tuning data distribution. Overall, RepairLLaMA correctly fixes 125 Defects4J v2 and 82 HumanEval-Java bugs, outperforming all baselines.
翻訳日:2023-12-27 16:53:02 公開日:2023-12-25
# EcomGPT-CT:半構造化データを用いたEコマース大規模言語モデルの継続的な事前学習

EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data ( http://arxiv.org/abs/2312.15696v1 )

ライセンス: Link先を確認
Shirong Ma, Shen Huang, Shulin Huang, Xiaobin Wang, Yangning Li, Hai-Tao Zheng, Pengjun Xie, Fei Huang and Yong Jiang(参考訳) 大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。 しかし、これらのモデルを特定のドメインに適用することは、ドメイン知識の欠如、ドメイン知識を活用する能力の制限、ドメイン固有のデータフォーマットへの不適切な適応など、依然として重大な課題を生んでいる。 本研究は,LLMをスクラッチからトレーニングする余剰コストと,特定のドメイン内の注釈付きデータの不足を考慮して,Eコマースドメインを例に,LLMのドメイン固有の継続事前トレーニングに着目した。 具体的には,ラベルなし一般コーパスとe-commercialコーパスを用いたllmへの継続的な事前トレーニングの影響について検討する。 さらに,e-commercial semi-structured dataをより活用するために,異なるデータソース間の混合戦略を設計する。 電子商取引分野における命令チューニング後のllmsの学習能力とゼロショット性能を評価するために,複数のタスクを構築した。 実験結果は,eコマースllmの継続的な事前学習の有効性と,提案するデータ混合戦略の有効性を示す。

Large Language Models (LLMs) pre-trained on massive corpora have exhibited remarkable performance on various NLP tasks. However, applying these models to specific domains still poses significant challenges, such as lack of domain knowledge, limited capacity to leverage domain knowledge and inadequate adaptation to domain-specific data formats. Considering the exorbitant cost of training LLMs from scratch and the scarcity of annotated data within particular domains, in this work, we focus on domain-specific continual pre-training of LLMs using E-commerce domain as an exemplar. Specifically, we explore the impact of continual pre-training on LLMs employing unlabeled general and E-commercial corpora. Furthermore, we design a mixing strategy among different data sources to better leverage E-commercial semi-structured data. We construct multiple tasks to assess LLMs' few-shot In-context Learning ability and their zero-shot performance after instruction tuning in E-commerce domain. Experimental results demonstrate the effectiveness of continual pre-training of E-commerce LLMs and the efficacy of our devised data mixing strategy.
翻訳日:2023-12-27 16:52:44 公開日:2023-12-25
# 均一サンプリング問題に対する二面群上の量子ウォーキングの利点

Quantum walks advantage on the dihedral group for uniform sampling problem ( http://arxiv.org/abs/2312.15693v1 )

ライセンス: Link先を確認
Shyam Dhamapurkar, Yuhang Dang, Saniya Wagh, and Xiu-Hao Deng(参考訳) サンプリングや近似を含むランダムウォークアルゴリズムは、統計物理学や理論計算機科学において重要な役割を果たす。 歩行を混合することは、マルコフ連鎖が群に対する定常分布を近似する過程である。 量子ウォークは古典的な場合よりも時間混合の潜在的な利点を示しているが、有限群の場合では一般的な証明がない。 ここでは、最小の逆対称部分集合によって生成される奇数$n$に対して、二面体群 $d_{2n}$ のケイリーグラフ上の連続時間量子ウォークを調べる。 ケイリーグラフ上の古典的な混合時間(典型的には$O(n^2 \log(2n/\epsilon))$)とは対照的に、$D_{2n}$の連続時間量子ウォーク混合時間は$O(n(\log n)^5 \log(1/\epsilon)$である。 本稿では,cayleyグラフ上の量子ウォーク混合の一般理解を深め,$d_{2n}$における連続時間量子ウォークによる混合時間の改善を強調する。 この研究は、非可換群やグラフ同型テストなどをサンプリングするアルゴリズムに潜在的な応用がある。

Random walk algorithms, including sampling and approximations, have played a significant role in statistical physics and theoretical computer science. Mixing through walks is the process for a Markov chain to approximate a stationary distribution for a group. Quantum walks have shown potential advantages in mixing time over the classical case but lack general proof in the finite group case. Here, we investigate the continuous-time quantum walks on Cayley graphs of the dihedral group $D_{2n}$ for odd $n$, generated by the smallest inverse closed symmetric subset. We present a significant finding that, in contrast to the classical mixing time on these Cayley graphs, which is typically of order $O(n^2 \log(2n/\epsilon))$, the continuous-time quantum walk mixing time on $D_{2n}$ is of order $O(n (\log n)^5 \log(1/\epsilon))$, achieving a quadratic improvement over the classical case. Our paper advances the general understanding of quantum walk mixing on Cayley graphs, highlighting the improved mixing time achieved by continuous-time quantum walks on $D_{2n}$. This work has potential applications in algorithms for sampling non-abelian groups, graph isomorphism tests, etc.
翻訳日:2023-12-27 16:52:24 公開日:2023-12-25
# インストラクション融合:ハイブリダイゼーションによる迅速な進化の促進

Instruction Fusion: Advancing Prompt Evolution through Hybridization ( http://arxiv.org/abs/2312.15692v1 )

ライセンス: Link先を確認
Weidong Guo, Jiuding Yang, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu(参考訳) コード生成に特化した大規模言語モデル(llm)の微調整は、オープンドメインのコーディングクエリの使用によって顕著な進歩を遂げている。 成功にもかかわらず、 \textit{evol-instruct}のような既存の方法論は性能上の制限に遭遇し、コード生成タスクのさらなる強化を妨げている。 本稿では,既存のプロンプト進化手法の制約について検討し,新しいアプローチである \textit{Instruction Fusion} (IF) を提案する。 ハイブリダイゼーションプロセスを通じて2つの異なるプロンプトを革新的に組み合わせることで、コードllmのためのトレーニングプロンプトの進化が促進される。 提案手法は,HumanEval, HumanEval+, MBPP, MBPP, MBPP+, MultiPL-Eの5つのコード生成ベンチマークにおけるコードLLMの性能を著しく向上させ, コード生成におけるLLMの性能向上における‘textit{Instruction Fusion} の有効性を実証した。

The fine-tuning of Large Language Models (LLMs) specialized in code generation has seen notable advancements through the use of open-domain coding queries. Despite the successes, existing methodologies like \textit{Evol-Instruct} encounter performance limitations, impeding further enhancements in code generation tasks. This paper examines the constraints of existing prompt evolution techniques and introduces a novel approach, \textit{Instruction Fusion} (IF). IF innovatively combines two distinct prompts through a hybridization process, thereby enhancing the evolution of training prompts for code LLMs. Our experimental results reveal that the proposed novel method effectively addresses the shortcomings of prior methods, significantly improving the performance of Code LLMs across five code generation benchmarks, namely HumanEval, HumanEval+, MBPP, MBPP+ and MultiPL-E, which underscore the effectiveness of \textit{Instruction Fusion} in advancing the capabilities of LLMs in code generation.
翻訳日:2023-12-27 16:51:54 公開日:2023-12-25
# 光機械システムを用いた量子温度測定

Quantum thermometry with optomechanical system ( http://arxiv.org/abs/2312.15691v1 )

ライセンス: Link先を確認
Asghar Ullah, Ali Pedram, M. Tahir Naseem, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 熱浴の未知温度を測定するための機械共振器と結合した光学場からなる光学系を用いた量子温度測定法を提案する。 これを実現するために、熱浴とメカニカル共振器を接続し、光学場の測定を行い、プローブ温度計として機能する。 オープン量子システムアプローチを用いて、プローブの量子フィッシャー情報を数値計算する。 特定のパラメータレジームにおいて、システムは実質的なエネルギーギャップと相互作用する密集したエネルギー固有状態のクラスターを示す。 このエネルギーレベルのクラスタリングは、これらのエネルギー固有状態群内の準退化をもたらすため、温度推定の操作範囲を広げる。 さらに、本質的なシステムパラメータを適切に調整することで、特に低温の熱感度をさらに高めることができる。

We present a quantum thermometry method utilizing an optomechanical system composed of an optical field coupled to a mechanical resonator for measuring the unknown temperature of a thermal bath. To achieve this, we connect a thermal bath to the mechanical resonator and perform measurements on the optical field, serving as a probe thermometer. Using the open quantum systems approach, we numerically calculate the quantum Fisher information for the probe. We find that, in specific parameter regimes, the system exhibits clusters of densely packed energy eigenstates interspaced with substantial energy gaps. This clustering of energy levels results in quasi-degeneracy within these energy eigenstate groups and hence widens the operational range of temperature estimation. Moreover, thermal sensitivity, especially at low temperatures, can be further boosted by appropriately tuning the essential system parameters.
翻訳日:2023-12-27 16:51:35 公開日:2023-12-25
# 単語長対応テキストスポッティング:高密度テキスト画像における検出と認識の強化

Word length-aware text spotting: Enhancing detection and recognition in dense text image ( http://arxiv.org/abs/2312.15690v1 )

ライセンス: Link先を確認
Hao Wang, Huabing Zhou, Yanduo Zhang, Tao Lu and Jiayi Ma(参考訳) シーンテキストスポッティングは様々なコンピュータビジョンアプリケーションにおいて必須であり、画像からテキスト情報を抽出し解釈することができる。 しかし、既存の手法では、単語画像の空間的意味を無視することが多く、密集したシーンに顕著に存在する長い単語の長さ分布の中で、長単語と短単語の副最適検出リコール率をもたらす。 本稿では、シーンテキスト画像の検出と認識のための新しい単語長対応スポッターであるWordLenSpotterについて、特に高密度テキスト画像の尾データにおける長短単語のスポッティング機能を改善する。 まず,拡張畳み込み融合モジュールを備えた画像エンコーダの設計を行い,マルチスケールテキスト画像の特徴を効果的に統合する。 次に, Transformer フレームワークを利用して, 単語長を用いてテキスト領域の特徴を反復的に修正した後, テキスト検出と認識の精度を相乗的に最適化する。 特に,異なる単語長に事前調整した文字数を用いて空間長予測モジュール(slp)を設計し,関心領域を効果的に制約する。 さらに,単語長認識セグメンテーション(lenseg)の提案ヘッドを導入し,ロングテール分布を特徴とするカテゴリにおいて,長短項の特徴を捉えるネットワークの能力を向上させる。 dstd1500の公開データセットと高密度テキストスポッティングデータセットに関する包括的実験により,提案手法の優れていることを示す。

Scene text spotting is essential in various computer vision applications, enabling extracting and interpreting textual information from images. However, existing methods often neglect the spatial semantics of word images, leading to suboptimal detection recall rates for long and short words within long-tailed word length distributions that exist prominently in dense scenes. In this paper, we present WordLenSpotter, a novel word length-aware spotter for scene text image detection and recognition, improving the spotting capabilities for long and short words, particularly in the tail data of dense text images. We first design an image encoder equipped with a dilated convolutional fusion module to integrate multiscale text image features effectively. Then, leveraging the Transformer framework, we synergistically optimize text detection and recognition accuracy after iteratively refining text region image features using the word length prior. Specially, we design a Spatial Length Predictor module (SLP) using character count prior tailored to different word lengths to constrain the regions of interest effectively. Furthermore, we introduce a specialized word Length-aware Segmentation (LenSeg) proposal head, enhancing the network's capacity to capture the distinctive features of long and short terms within categories characterized by long-tailed distributions. Comprehensive experiments on public datasets and our dense text spotting dataset DSTD1500 demonstrate the superiority of our proposed methods, particularly in dense text image detection and recognition tasks involving long-tailed word length distributions encompassing a range of long and short words.
翻訳日:2023-12-27 16:51:23 公開日:2023-12-25
# 有限群とリー群の非対称性の資源理論における i.d.状態可換性

The i.i.d. State Convertibility in the Resource Theory of Asymmetry for Finite Groups and Lie groups ( http://arxiv.org/abs/2312.15758v1 )

ライセンス: Link先を確認
Tomohiro Shitara, Hiroyasu Tajima(参考訳) 近年,量子情報理論の観点から対称性と物理の関係を理解するための研究が活発に行われている。 このアプローチは、量子力学を対称性で扱う一般的なフレームワークである非対称性の資源理論(RTA)から始まり、熱力学やブラックホール物理学といった物理学の基本から、量子計算、量子計測、誤り訂正符号といった情報処理の限界まで、様々な分野をカバーしている。 その重要性にもかかわらず、RTAでは、i.d.状態間の漸近変換率を特徴づけるリソース測度は、$U(1)$と$\mathbb Z_2$を除いては知られていない。 この手紙では、この問題を有限群対称性で解き、コンパクトリー群対称性で部分的に解決する。 有限群に対して,(1)資源測度の組が任意の有限群のi.i.d.状態間の厳密な変換の最適速度を特徴付けること,(2)消滅的に小さい誤差の近似変換を考えると,ほぼ任意の資源状態間の任意の変換速度を実現できることを明らかにする。 リー群対称性について、i.d.状態変換の絶対誤差による最適率はフィッシャー情報行列の比で有界であることを示す。 本稿では,フィッシャー情報行列が最適変換率を特徴付けるものと仮定し,その推論を説明する。 これらの結果はrtaの適用範囲を大きく拡大することが期待される。

In recent years, there has been active research toward understanding the connection between symmetry and physics from the viewpoint of quantum information theory. This approach stems from the resource theory of asymmetry (RTA), a general framework treating quantum dynamics with symmetry, and scopes various fields ranging from the fundamentals of physics, such as thermodynamics and black hole physics, to the limitations of information processing, such as quantum computation, quantum measurement, and error-correcting codes. Despite its importance, in RTA, the resource measures characterizing the asymptotic conversion rate between i.i.d. states are not known except for $U(1)$ and $\mathbb Z_2$. In this letter, we solve this problem for the finite group symmetry and partially solve for the compact Lie group symmetry. For finite groups, we clarify that (1) a set of resource measures characterizes the optimal rate of the exact conversion between i.i.d. states in arbitrary finite groups, and (2) when we consider the approximate conversion with vanishingly small error, we can realize arbitrary conversion rate between almost arbitrary resource states. For Lie group symmetry, we show that the optimal rate of the i.i.d. state conversion with vanishingly small error is bounded by the ratio of the Fisher information matrices. We give a conjecture that the Fisher information matrices also characterize the optimal conversion rate, and illustrate the reasoning. These results are expected to significantly broaden the scope of the application of RTA.
翻訳日:2023-12-27 16:45:18 公開日:2023-12-25
# 小型超伝導共振器を用いたトランスモンの制御と読み出し

Control and readout of a transmon using a compact superconducting resonator ( http://arxiv.org/abs/2312.15753v1 )

ライセンス: Link先を確認
Julia Zotova, Shtefan Sanduleanu, Gleb Fedorov, Rui Wang, Jaw Shen Tsai and Oleg Astafiev(参考訳) 小型集中要素共振器を用いたトランスモン量子ビットに基づく超伝導人工原子の制御と再生を実証する。 共振器はパラレルプレートコンデンサ(PPC)とワイヤ幾何学インダクタから構成される。 共振器のフットプリントは200 {\mu}m×200 {\mu}mであり、これは標準的なトランスモンサイズと似ており、共平面導波路共振器と比較して占有領域では1つか2桁ほどコンパクトである。 我々はコヒーレントラビ振動を観測し、トランスモンの時間領域特性を得る。 この研究は超伝導回路の基本部品を小型化し、超伝導トランスモンで量子システムをさらにスケールアップするための扉を開く。

We demonstrate control and readout of a superconducting artificial atom based on a transmon qubit using a compact lumped-element resonator. The resonator consists of a parallel-plate capacitor (PPC) with a wire geometric inductor. The footprint of the resonators is about 200 {\mu}m by 200 {\mu}m, which is similar to the standard transmon size and one or two orders of magnitude more compact in the occupied area comparing to coplanar waveguide resonators. We observe coherent Rabi oscillations and obtain time-domain properties of the transmon. The work opens a door to miniaturize essential components of superconducting circuits and to further scaling up quantum systems with superconducting transmons.
翻訳日:2023-12-27 16:44:52 公開日:2023-12-25
# マルチタスク学習による科学情報抽出におけるラベル変動の解法

Solving Label Variation in Scientific Information Extraction via Multi-Task Learning ( http://arxiv.org/abs/2312.15751v1 )

ライセンス: Link先を確認
Dong Pham, Xanh Ho, Quang-Thuy Ha and Akiko Aizawa(参考訳) 科学的情報抽出(ScientificIE)は、科学的実体とその関係を識別する重要な課題である。 このタスクの複雑さは、ドメイン固有の知識と注釈付きデータの限られた可用性の必要性によって複雑になる。 ScientificIEで最も人気のあるデータセットはSemEval-2018 Task-7とSciERCである。 重複したサンプルを持ち、アノテーションのスキームが異なるため、コンフリクトが発生する。 本研究では,ラベル変動に対処するマルチタスク学習に基づく新しいアプローチを最初に導入した。 そこで,不整合ラベルを確率分布に変換するソフトラベリング手法を提案する。 実験の結果,提案手法は,ラベルノイズに対するモデルのロバスト性を高め,科学的タスクにおけるエンドツーエンドの性能を向上させることができた。 分析の結果,ラベルの変動はあいまいなインスタンスの処理に特に有効であることが判明した。 さらに、ラベルのバリエーションによって取得される情報の豊かさは、データサイズ要求を減少させる可能性がある。 この発見は、変動ラベルをリリースすることの重要性を強調し、他の領域における他のタスクに関する今後の研究を促進する。 本研究は,ScientificIEの性能を高めるため,マルチタスク学習の有効性とラベル変動の可能性を示す。

Scientific Information Extraction (ScientificIE) is a critical task that involves the identification of scientific entities and their relationships. The complexity of this task is compounded by the necessity for domain-specific knowledge and the limited availability of annotated data. Two of the most popular datasets for ScientificIE are SemEval-2018 Task-7 and SciERC. They have overlapping samples and differ in their annotation schemes, which leads to conflicts. In this study, we first introduced a novel approach based on multi-task learning to address label variations. We then proposed a soft labeling technique that converts inconsistent labels into probabilistic distributions. The experimental results demonstrated that the proposed method can enhance the model robustness to label noise and improve the end-to-end performance in both ScientificIE tasks. The analysis revealed that label variations can be particularly effective in handling ambiguous instances. Furthermore, the richness of the information captured by label variations can potentially reduce data size requirements. The findings highlight the importance of releasing variation labels and promote future research on other tasks in other domains. Overall, this study demonstrates the effectiveness of multi-task learning and the potential of label variations to enhance the performance of ScientificIE.
翻訳日:2023-12-27 16:44:40 公開日:2023-12-25
# 量子力学の隠れローレンツ共分散

The hidden Lorentz Covariance of Quantum Mechanics ( http://arxiv.org/abs/2312.15750v1 )

ライセンス: Link先を確認
Partha Nandi, Frederik G. Scholtz(参考訳) 本稿では,ロレンツ代数の新たなユニタリ表現(so(1,3)$)と拡張(anti)デシッター代数の既約ユニタリ表現(so(2,4)$)を$\mathcal{l}^{2}(\mathcal{r}^{3},\frac{1}{r})$で導出するための体系的アルゴリズムを提案する。 この表現は $\mathcal{L}^{2}(\mathcal{R}^{3})$ 上の表現と等価であり、対応する類似性変換が識別される。 微分作用素の項における明示的な表現が与えられ、内部積がローレンツ不変であることが示される。 ローレンツ共変性を確保するには、ロレンツ共変性に従属する重力場と量子空間(igqr)の界面において位相空間代数として認識されるハイゼンベルク代数の修正が必要である。 また、時間進化が明らかな共変形式にキャストできることも示されている。 ヒルベルト空間の各質量セクタはローレンツ代数の表現を持ち、各質量セクタ上の(anti)デシッター代数は、平坦な構成と運動量空間の極限においてポインカリー代数と契約する。 最後に、三次元ファジィ空間もまたこれらの代数のユニタリ表現を持ち、代数的には$\mathcal{L}^{2}(\mathcal{R}^{3},\frac{1}{r})$表現と同値であるが、表現として必ずしも同値ではない。 将来の探検のためにいくつかの顕著な問題が特定されている。

This paper introduces a systematic algorithm for deriving a new unitary representation of the Lorentz algebra ($so(1,3)$) and an irreducible unitary representation of the extended (anti) de-Sitter algebra ($so(2,4)$) on $\mathcal{L}^{2}(\mathcal{R}^{3},\frac{1}{r})$. This representation is equivalent to a representation on $\mathcal{L}^{2}(\mathcal{R}^{3})$, and the corresponding similarity transformation is identified. An explicit representation in terms of differential operators is given, and it is shown that the inner product is Lorentz invariant. Ensuring Lorentz covariance demands a modification of the Heisenberg algebra, recognized as a phase space algebra at the interface of gravitational and quantum realms (IGQR), which we consider subordinate to Lorentz covariance. It is also demonstrated that time evolution can be cast in a manifestly covariant form. Each mass sector of the Hilbert space carries a representation of the Lorentz algebra, and the (anti) de-Sitter algebra on each mass sector contracts to the Poincare algebra in the flat configuration and momentum space limits. Finally, we show that three-dimensional fuzzy space also carries a unitary representation of these algebras, algebraically equivalent to the $\mathcal{L}^{2}(\mathcal{R}^{3},\frac{1}{r})$ representation but not necessarily equivalent as representations. Several outstanding issues are identified for future exploration.
翻訳日:2023-12-27 16:44:22 公開日:2023-12-25
# 大規模言語モデルは安定したレコメンデーションシステムではない

Large Language Models are Not Stable Recommender Systems ( http://arxiv.org/abs/2312.15746v1 )

ライセンス: Link先を確認
Tianhui Ma, Yuan Cheng, Hengshu Zhu, Hui Xiong(参考訳) 多くの自然言語処理タスクにおける大規模言語モデル(LLM)の顕著な成功により、研究者の間では、新しいレコメンデーションシステムのためのLLMの探索への関心が高まっている。 しかし,LLMをレコメンデーションシステムとして直接使用する場合,その位置バイアスのため,通常は不安定であることがわかった。 この目的のために,探索的調査を行い,様々なシナリオにおけるレコメンデーションの性能に影響を与えるllmの位置バイアスの一貫したパターンを見出す。 そこで我々は,2段階パイプラインを含むベイズ確率的フレームワークSTELLA(Stable LLM for Recommendation)を提案する。 最初の探索段階では、探索検出データセットを用いて遷移行列内のパターンを同定する。 第2のレコメンデーション段階では,LLMのバイアス出力をエントロピー指標で調整するためにベイズ戦略を用いる。 したがって,LLMの不安定性を校正し,推奨性能を高めるために,既存のパターン情報を活用することができる。 最後に,我々のフレームワークの有効性を実験的に検証した。

With the significant successes of large language models (LLMs) in many natural language processing tasks, there is growing interest among researchers in exploring LLMs for novel recommender systems. However, we have observed that directly using LLMs as a recommender system is usually unstable due to its inherent position bias. To this end, we introduce exploratory research and find consistent patterns of positional bias in LLMs that influence the performance of recommendation across a range of scenarios. Then, we propose a Bayesian probabilistic framework, STELLA (Stable LLM for Recommendation), which involves a two-stage pipeline. During the first probing stage, we identify patterns in a transition matrix using a probing detection dataset. And in the second recommendation stage, a Bayesian strategy is employed to adjust the biased output of LLMs with an entropy indicator. Therefore, our framework can capitalize on existing pattern information to calibrate instability of LLMs, and enhance recommendation performance. Finally, extensive experiments clearly validate the effectiveness of our framework.
翻訳日:2023-12-27 16:43:45 公開日:2023-12-25
# DI-V2X:車両・インフラ協調3次元物体検出のための領域不変表現学習

DI-V2X: Learning Domain-Invariant Representation for Vehicle-Infrastructure Collaborative 3D Object Detection ( http://arxiv.org/abs/2312.15742v1 )

ライセンス: Link先を確認
Li Xiang and Junbo Yin and Wei Li and Cheng-Zhong Xu and Ruigang Yang and Jianbing Shen(参考訳) 車両間協調認識(V2X)は、近年、車両やインフラなどの様々なエージェントからの情報を統合することで、シーン理解を強化する能力によって注目されている。 しかし、現在の研究はしばしば各エージェントからの情報を等しく扱い、各エージェントの異なるLiDARセンサの利用による固有のドメインギャップを無視し、最適以下の性能をもたらす。 本稿では, v2x 3d オブジェクト検出の文脈における領域差を緩和するために, 新しい蒸留フレームワークを用いて, ドメイン不変表現を学習することを目的とした di-v2x を提案する。 DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。 具体的には、DMAは、トレーニング中に教師と学生モデルのためのドメインミキシングされた3Dインスタンスバンクを構築する。 次に、PDDは、異なるドメインの学生モデルに対して、徐々に教師に対するドメイン不変の特徴表現を学習するよう促し、そこでは、エージェント間の重複する領域を、蒸留プロセスを促進するためのガイダンスとして採用する。 さらに、DAFは校正対応ドメイン適応型注意を取り入れることで、学生間のドメインギャップを埋める。 挑戦的なDAIR-V2XとV2XSetベンチマークデータセットに関する大規模な実験では、DI-V2Xは、以前のV2Xモデルよりも優れたパフォーマンスを誇示している。 コードはhttps://github.com/Serenos/DI-V2Xで入手できる。

Vehicle-to-Everything (V2X) collaborative perception has recently gained significant attention due to its capability to enhance scene understanding by integrating information from various agents, e.g., vehicles, and infrastructure. However, current works often treat the information from each agent equally, ignoring the inherent domain gap caused by the utilization of different LiDAR sensors of each agent, thus leading to suboptimal performance. In this paper, we propose DI-V2X, that aims to learn Domain-Invariant representations through a new distillation framework to mitigate the domain discrepancy in the context of V2X 3D object detection. DI-V2X comprises three essential components: a domain-mixing instance augmentation (DMA) module, a progressive domain-invariant distillation (PDD) module, and a domain-adaptive fusion (DAF) module. Specifically, DMA builds a domain-mixing 3D instance bank for the teacher and student models during training, resulting in aligned data representation. Next, PDD encourages the student models from different domains to gradually learn a domain-invariant feature representation towards the teacher, where the overlapping regions between agents are employed as guidance to facilitate the distillation process. Furthermore, DAF closes the domain gap between the students by incorporating calibration-aware domain-adaptive attention. Extensive experiments on the challenging DAIR-V2X and V2XSet benchmark datasets demonstrate DI-V2X achieves remarkable performance, outperforming all the previous V2X models. Code is available at https://github.com/Serenos/DI-V2X
翻訳日:2023-12-27 16:43:27 公開日:2023-12-25
# 風力発電予測のためのニューラルネットワークの精度と解釈性の向上

Improving the Accuracy and Interpretability of Neural Networks for Wind Power Forecasting ( http://arxiv.org/abs/2312.15741v1 )

ライセンス: Link先を確認
Wenlong Liao, Fernando Porte-Agel, Jiannong Fang, Birgitte Bak-Jensen, Zhe Yang, Gonghao Zhang(参考訳) 深層ニューラルネットワーク(DNN)は、風データの複雑なパターンを効果的に捉える能力により、風力予測に注目が集まっている。 しかし、最適化アルゴリズムの局所最適重み問題により予測誤差が著しく制限され、予測された振る舞いも解釈可能性に欠ける。 この2つの課題に対処するために,風力予測におけるDNNの学習過程を高速化し,モデル性能を向上させるための簡易かつ効果的な3重最適化手法(TriOpts)を提案する。 そして、グローバルおよびインスタンスの観点から、DNNの予測された振る舞いを解釈するために、置換特徴重要度(PFI)と局所解釈モデル非依存的説明(LIME)技術が革新的に提示される。 シミュレーションの結果,提案したTriOptsは決定的および確率的風力予測の両方において,DNNのモデル一般化を大幅に改善するだけでなく,トレーニングプロセスの高速化も図っている。 さらに,提案手法は,風力予測に対する各特徴の寄与を正確に推定し,特徴工学の構築と,与えられたサンプルに対する予測値の取得方法の理解を支援する。

Deep neural networks (DNNs) are receiving increasing attention in wind power forecasting due to their ability to effectively capture complex patterns in wind data. However, their forecasted errors are severely limited by the local optimal weight issue in optimization algorithms, and their forecasted behavior also lacks interpretability. To address these two challenges, this paper firstly proposes simple but effective triple optimization strategies (TriOpts) to accelerate the training process and improve the model performance of DNNs in wind power forecasting. Then, permutation feature importance (PFI) and local interpretable model-agnostic explanation (LIME) techniques are innovatively presented to interpret forecasted behaviors of DNNs, from global and instance perspectives. Simulation results show that the proposed TriOpts not only drastically improve the model generalization of DNNs for both the deterministic and probabilistic wind power forecasting, but also accelerate the training process. Besides, the proposed PFI and LIME techniques can accurately estimate the contribution of each feature to wind power forecasting, which helps to construct feature engineering and understand how to obtain forecasted values for a given sample.
翻訳日:2023-12-27 16:42:58 公開日:2023-12-25
# BiSwift: Edge上のマルチストリームビデオ分析のためのバンド幅オーケストレータ

BiSwift: Bandwidth Orchestrator for Multi-Stream Video Analytics on Edge ( http://arxiv.org/abs/2312.15740v1 )

ライセンス: Link先を確認
Lin Sun, Weijun Wang, Tingting Yuan, Liang Mi, Haipeng Dai, Yunxin Liu, Xiaoming Fu(参考訳) 監視と道路交通のための高精細(HD)カメラは、リアルタイム分析のための集中的な計算資源を必要としている。 近年,フロントエンドデバイスからバックエンドエッジサーバへのフレームのオフロードは,大きな可能性を秘めている。 マルチストリーム競合環境では、高い推論精度と高いスループットを確保するために、効率的な帯域管理と適切なスケジューリングが不可欠である。 この目的を達成するために、マルチレベルパイプラインと統合された適応型ハイブリッドコーデックによる同時リアルタイムビデオ分析をスケールするバイレベルフレームワークBiSwiftと、複数のビデオストリームのためのグローバル帯域幅コントローラを提案する。 低レベルのフロントエンド-バックエンド協調機構(adaptive hybrid codecと呼ばれる)は、精度をローカルに最適化し、ひとつのストリームに対するエンドツーエンドのビデオ分析を高速化する。 上位レベルのスケジューラは、グローバル帯域幅コントローラを介して複数のストリーム間の公平性を正確にすることを目的としている。 BiSwiftの評価は、NVIDIA RTX3070 (8G) GPUのみを備えたエッジデバイスで、9ストリームでリアルタイムのオブジェクト検出が可能であることを示している。 BiSwiftは10%$\sim$21%の精度を改善し、最先端のビデオ分析パイプラインと比較して1.2$\sim$9$\times$スループットを提供する。

High-definition (HD) cameras for surveillance and road traffic have experienced tremendous growth, demanding intensive computation resources for real-time analytics. Recently, offloading frames from the front-end device to the back-end edge server has shown great promise. In multi-stream competitive environments, efficient bandwidth management and proper scheduling are crucial to ensure both high inference accuracy and high throughput. To achieve this goal, we propose BiSwift, a bi-level framework that scales the concurrent real-time video analytics by a novel adaptive hybrid codec integrated with multi-level pipelines, and a global bandwidth controller for multiple video streams. The lower-level front-back-end collaborative mechanism (called adaptive hybrid codec) locally optimizes the accuracy and accelerates end-to-end video analytics for a single stream. The upper-level scheduler aims to accuracy fairness among multiple streams via the global bandwidth controller. The evaluation of BiSwift shows that BiSwift is able to real-time object detection on 9 streams with an edge device only equipped with an NVIDIA RTX3070 (8G) GPU. BiSwift improves 10%$\sim$21% accuracy and presents 1.2$\sim$9$\times$ throughput compared with the state-of-the-art video analytics pipelines.
翻訳日:2023-12-27 16:42:36 公開日:2023-12-25
# 生成拡散前における実世界ブラインド顔復元に向けて

Towards Real-World Blind Face Restoration with Generative Diffusion Prior ( http://arxiv.org/abs/2312.15736v1 )

ライセンス: Link先を確認
Xiaoxu Chen, Jingfan Tan, Tao Wang, Kaihao Zhang, Wenhan Luo, Xiaocun Cao(参考訳) ブラインド顔の復元はコンピュータビジョンにおいて重要な課題であり、広範囲の応用により注目されている。 本研究では,前訓練した安定拡散を利用したブラインドフェイス修復の可能性を探る。 本稿では,低品質な顔画像から特徴を効果的に抽出し,予め訓練された安定拡散前の生成物を用いてリアルで忠実な顔詳細を復元するbfrffusionを提案する。 さらに、人種、性別、年齢といったバランスのとれた属性を備えたプライバシ保護顔データセットPFHQを構築しています。 このデータセットは、ブラインドフェイス復元方法をトレーニングするための実行可能な代替手段として機能し、実際の顔データセットに関連するプライバシーとバイアスの懸念に効果的に対処する。 大規模な実験を通じて、我々のBFRffusionは、ブラインドフェイス復元のための合成および実世界のパブリックテストデータセットの両方で最先端のパフォーマンスを達成し、PFHQデータセットはブラインドフェイス復元ネットワークをトレーニングするための利用可能なリソースであることを示す。 コード、事前トレーニングされたモデル、データセットはhttps://github.com/chenxx89/bfrffusionでリリースされる。

Blind face restoration is an important task in computer vision and has gained significant attention due to its wide-range applications. In this work, we delve into the potential of leveraging the pretrained Stable Diffusion for blind face restoration. We propose BFRffusion which is thoughtfully designed to effectively extract features from low-quality face images and could restore realistic and faithful facial details with the generative prior of the pretrained Stable Diffusion. In addition, we build a privacy-preserving face dataset called PFHQ with balanced attributes like race, gender, and age. This dataset can serve as a viable alternative for training blind face restoration methods, effectively addressing privacy and bias concerns usually associated with the real face datasets. Through an extensive series of experiments, we demonstrate that our BFRffusion achieves state-of-the-art performance on both synthetic and real-world public testing datasets for blind face restoration and our PFHQ dataset is an available resource for training blind face restoration networks. The codes, pretrained models, and dataset are released at https://github.com/chenxx89/BFRffusion.
翻訳日:2023-12-27 16:42:15 公開日:2023-12-25
# Adaptive FSS: プロトタイプ拡張による新しいFew-Shotセグメンテーションフレームワーク

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement ( http://arxiv.org/abs/2312.15731v1 )

ライセンス: Link先を確認
Jing Wang, Jinagyun Li, Chen Chen, Yisi Zhang, Haoran Shen, Tianxiang Zhang(参考訳) Few-Shot Segmentation (FSS)は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。 メタラーニングに基づく最近のFSS研究は、クエリとサポート機能の間の複雑な相互作用機構の設計に焦点を当てている。 しかし、限られたサンプルから新しいことを素早く学習できる人間とは異なり、既存のアプローチは、新しいタスクに取り組むための固定された特徴マッチングにのみ依存し、適応性に欠ける。 本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。 具体的には、クラスプロトタイプを導出するためのサポートセットが提供する正確なカテゴリ情報を利用して、多段階表現におけるクラス固有情報を強化するプロトタイプ適応モジュール(pam)を設計する。 さらに,本手法は,エンコーダの層間にPAMを挿入するだけで,異なるバックボーンを持つ多様なFSS手法と互換性がある。 MSANet, HDMNet, FPTrans, DCAMAなどのFSSモデルの性能を効果的に向上し, PASCAL-5$^i$1ショットおよび5ショット設定で72.4\%, 79.1\% mIoU, COCO-20$^i$1ショットおよび5ショット設定で52.7\% mIoU, 60.0\% mIoU) を新たに達成した。 私たちのコードはhttps://github.com/jingw193/Adaptive_FSSで利用可能です。

The Few-Shot Segmentation (FSS) aims to accomplish the novel class segmentation task with a few annotated images. Current FSS research based on meta-learning focus on designing a complex interaction mechanism between the query and support feature. However, unlike humans who can rapidly learn new things from limited samples, the existing approach relies solely on fixed feature matching to tackle new tasks, lacking adaptability. In this paper, we propose a novel framework based on the adapter mechanism, namely Adaptive FSS, which can efficiently adapt the existing FSS model to the novel classes. In detail, we design the Prototype Adaptive Module (PAM), which utilizes accurate category information provided by the support set to derive class prototypes, enhancing class-specific information in the multi-stage representation. In addition, our approach is compatible with in diverse FSS methods with different backbones by simply inserting PAM between the layers of the encoder. Experiments demonstrate that our method effectively improves the performance of the FSS models (e.g., MSANet, HDMNet, FPTrans, and DCAMA) and achieve new state-of-the-art (SOTA) results (i.e., 72.4\% and 79.1\% mIoU on PASCAL-5$^i$ 1-shot and 5-shot settings, 52.7\% and 60.0\% mIoU on COCO-20$^i$ 1-shot and 5-shot settings). Our code can be available at https://github.com/jingw193/Adaptive_FSS.
翻訳日:2023-12-27 16:41:56 公開日:2023-12-25
# コンビニアル・マルチアーマッドバンドによる群衆センシングにおける多様性に基づくリクルート

Diversity-Based Recruitment in Crowdsensing By Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2312.15729v1 )

ライセンス: Link先を確認
Abdalaziz Sawwan and Jie Wu(参考訳) 本稿では,モバイル端末とそのユーザを中心的要求者の協調の下で集団センシングタスクに活用するモバイルクラウドセンシングについて検討する。 ここでの最大の課題は、最初は未知であり、徐々に学ばなければならない個々の労働者の知覚能力の変化である。 タスク割り当ての各ラウンドで、要求者は特定のタスクを処理するために労働者のグループを選択する。 このプロセスは本質的に同じラウンドでタスクが重複し、ラウンドをまたいで繰り返します。 本稿では,各ラウンドにおけるタスクの重み付けを代入頻度に応じて動的に調整することにより,ラウンド間のタスクの多様性を高める新しいモデルを提案する。 さらに、同じラウンドにおける重複によって引き起こされるタスク完了品質の変動性も満たしており、個々の作業者の最大品質から、割り当てられた作業者の総品質まで多岐にわたる。 このプロセスにおける重要な制約は、労働者採用のための効率的な戦略を要求する要求者の予算である。 私たちのソリューションは、各ラウンドで完了したタスクの全体的な重み付け品質を最大化することです。 我々は、この目的のために、上位信頼境界アプローチを備えた組合せ多重武装バンディットフレームワークを用いる。 本論文は,本モデルの有効性を示すために,実データを用いた後悔分析とシミュレーションを提案する。

This paper explores mobile crowdsensing, which leverages mobile devices and their users for collective sensing tasks under the coordination of a central requester. The primary challenge here is the variability in the sensing capabilities of individual workers, which are initially unknown and must be progressively learned. In each round of task assignment, the requester selects a group of workers to handle specific tasks. This process inherently leads to task overlaps in the same round and repetitions across rounds. We propose a novel model that enhances task diversity over the rounds by dynamically adjusting the weight of tasks in each round based on their frequency of assignment. Additionally, it accommodates the variability in task completion quality caused by overlaps in the same round, which can range from the maximum individual worker's quality to the summation of qualities of all assigned workers in the overlap. A significant constraint in this process is the requester's budget, which demands an efficient strategy for worker recruitment. Our solution is to maximize the overall weighted quality of tasks completed in each round. We employ a combinatorial multi-armed bandit framework with an upper confidence bound approach for this purpose. The paper further presents a regret analysis and simulations using realistic data to demonstrate the efficacy of our model.
翻訳日:2023-12-27 16:41:22 公開日:2023-12-25
# 1次元スピン偏極フェルミガス中の非エルミタン$p$波超流動と非弾性3体損失の影響

Non-Hermitian $p$-wave superfluid and effects of the inelastic three-body loss in a one-dimensional spin-polarized Fermi gas ( http://arxiv.org/abs/2312.15724v1 )

ライセンス: Link先を確認
Hiroyuki Tajima, Yuta Sekino, Daisuke Inotani, Akira Dohi, Shigehiro Nagataki, Tomoya Hayata(参考訳) 近年の超低温原子実験に関連する1次元スピン分極フェルミガス中の非ヘルミ的$p$-wave fermi超流動を理論的に検討した。 リンドブラッド形式論における3体組換え過程に寄与する想像上の原子-二量結合を考えると、超流動状態の原子損失効果に対する安定性について議論する。 2チャネル非ヘルミットbcs-レゲット理論では、原子損失は想像上の原子-ダイマーカップリングと$p$-wave有効範囲の積によって特徴づけられる。 以上の結果から, 任意の原子-二量体カップリングにおいて, 非エルミアン$p$波のフェルミ超流動状態に到達するためには, 有効範囲の小さい$p$波の相互作用が不可欠であることが示唆された。

We theoretically investigate non-Hermitian $p$-wave Fermi superfluidity in one-dimensional spin-polarized Fermi gases which is relevant to recent ultracold atomic experiments. Considering an imaginary atom-dimer coupling responsible for the three-body recombination process in the Lindblad formalism, we discuss the stability of the superfluid state against the atomic loss effect. Within the two-channel non-Hermitian BCS-Leggett theory, the atomic loss is characterized by the product of the imaginary atom-dimer coupling and the $p$-wave effective range. Our results indicate that for a given imaginary atom-dimer coupling, a smaller magnitude of the effective ranges of $p$-wave interaction is crucial for reaching the non-Hermitian $p$-wave Fermi superfluid state.
翻訳日:2023-12-27 16:41:02 公開日:2023-12-25
# 多様な映像キャプションのための意味概念に基づく集合予測

Set Prediction Guided by Semantic Concepts for Diverse Video Captioning ( http://arxiv.org/abs/2312.15720v1 )

ライセンス: Link先を確認
Yifan Lu, Ziqi Zhang, Chunfeng Yuan, Peng Li, Yan Wang, Bing Li, Weiming Hu(参考訳) ディバースビデオキャプションは、与えられた動画を様々な面で記述するための一連の文を生成することを目的としている。 メインストリーム法は、セット内関係を生かさずに、ビデオの独立したペアと接頭辞で訓練され、生成された字幕の多様性は低い。 それらと異なり、予測されたキャプションセットを基底集合に適合させることにより、セマンティクス・コンセプタ・ガイドセット予測(scg-sp)問題に多様なキャプションを定式化する。 特に,集合予測は2つの相乗的タスク,すなわちキャプション生成と,追加的な意味的監督を提供する概念結合予測の補助タスクから構成されている。 セット内の各キャプションは、キャプションの第一の意味的内容を示し、セット予測における要素アライメントを容易にする概念の組み合わせに取り付けられる。 さらに,様々な概念の組み合わせで意味的に多様なキャプションを生成することをモデルに促すために,概念に多様性規則化用語を適用した。 これら2つのタスクは、視覚的特徴と概念的クエリの反復的相互作用によって得られる複数の意味論的エンコーディングを入力として共有する。 生成されたキャプションと特定の概念の組み合わせの対応は、モデルの解釈可能性をさらに保証します。 ベンチマークデータセットに関する広範囲な実験により、提案するscg-spは関連度と多様性の指標の両方において最先端(sota)性能を達成していることが示された。

Diverse video captioning aims to generate a set of sentences to describe the given video in various aspects. Mainstream methods are trained with independent pairs of a video and a caption from its ground-truth set without exploiting the intra-set relationship, resulting in low diversity of generated captions. Different from them, we formulate diverse captioning into a semantic-concept-guided set prediction (SCG-SP) problem by fitting the predicted caption set to the ground-truth set, where the set-level relationship is fully captured. Specifically, our set prediction consists of two synergistic tasks, i.e., caption generation and an auxiliary task of concept combination prediction providing extra semantic supervision. Each caption in the set is attached to a concept combination indicating the primary semantic content of the caption and facilitating element alignment in set prediction. Furthermore, we apply a diversity regularization term on concepts to encourage the model to generate semantically diverse captions with various concept combinations. These two tasks share multiple semantics-specific encodings as input, which are obtained by iterative interaction between visual features and conceptual queries. The correspondence between the generated captions and specific concept combinations further guarantees the interpretability of our model. Extensive experiments on benchmark datasets show that the proposed SCG-SP achieves state-of-the-art (SOTA) performance under both relevance and diversity metrics.
翻訳日:2023-12-27 16:40:45 公開日:2023-12-25
# Egocentricビデオで手動の安定グラフを再構築するGet a Grip

Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos ( http://arxiv.org/abs/2312.15719v1 )

ライセンス: Link先を確認
Zhifan Zhu, Dima Damen(参考訳) エゴセントリックビデオにおける既知の対象カテゴリに対する手対象内再構成に対処し,安定な把握の時間的期間に着目した。 本研究は,物体を安定に保持するフレームを共同で再構築する,手動安定グラフ再構成(HO-SGR)の課題を提案する。 これにより、手に対する物体の動きを拘束し、効果的に再構成し、性能を向上させることができる。 3次元ARCTICデータセットを解析することにより、手と物体の頂点間の接触領域が安定している時間周期を同定する。 安定な把持内の物体は、単一の自由度(1〜dof)内を移動する。 そこで本研究では, 物体の回転を潜在1 dof内で最小化することにより, 安定な把持内で全フレームを協調的に最適化する方法を提案する。 次に、EPIC-KITCHENSデータセットから2.4Kクリップの安定したグリップをラベル付けすることで、この知識をWild Egocentric Videoに拡張する。 提案するepic-graspsデータセットには9つのカテゴリからなる390のオブジェクトインスタンスが含まれている。 本手法は,安定な把握領域とマスク重なりの2次元投影ラベルを定性的に計算し,より優れたHO-SGRを実現する。

We address in-the-wild hand-object reconstruction for a known object category in egocentric videos, focusing on temporal periods of stable grasps. We propose the task of Hand-Object Stable Grasp Reconstruction (HO-SGR), the joint reconstruction of frames during which the hand is stably holding the object. We thus can constrain the object motion relative to the hand, effectively regularising the reconstruction and improving performance. By analysing the 3D ARCTIC dataset, we identify temporal periods where the contact area between the hand and object vertices remain stable. We showcase that objects within stable grasps move within a single degree of freedom (1~DoF). We thus propose a method for jointly optimising all frames within a stable grasp by minimising the object's rotation to that within a latent 1 DoF. We then extend this knowledge to in-the-wild egocentric videos by labelling 2.4K clips of stable grasps from the EPIC-KITCHENS dataset. Our proposed EPIC-Grasps dataset includes 390 object instances of 9 categories, featuring stable grasps from videos of daily interactions in 141 environments. Our method achieves significantly better HO-SGR, both qualitatively and by computing the stable grasp area and 2D projection labels of mask overlaps.
翻訳日:2023-12-27 16:40:18 公開日:2023-12-25
# 人体移動における空間的時間的相互作用:ハイパーグラフ表現を用いた階層的強化学習アプローチ

Spatial-Temporal Interplay in Human Mobility: A Hierarchical Reinforcement Learning Approach with Hypergraph Representation ( http://arxiv.org/abs/2312.15717v1 )

ライセンス: Link先を確認
Zhaofan Zhang, Yanan Xiao, Lu Jiang, Dingqi Yang, Minghao Yin, Pengyang Wang(参考訳) 人間の移動の領域において、次の訪問場所を選択する意思決定プロセスは、個人のニーズや嗜好を反映した空間的制約と時間的制約のトレードオフによって複雑に影響を受ける。 しかし、このトレードオフは個人によって異なり、空間-時間ダイナミクスのモデリングは大きな課題となっている。 そこで本研究では,人間の移動意思決定における空間的要因と時間的要因の相互作用を捉えるための,空間的時間的階層的強化学習(STI-HRL)フレームワークを提案する。 特に、STI-HRLは2段階の意思決定プロセスを採用しており、低レベルは専用のエージェントを使用して空間的および時間的嗜好を分離することに焦点を当てている。 階層的意思決定を補完するために,人間移動のマルチスペクトルセマンティクスをカプセル化し,履歴データを整理するハイパーグラフを構築する。 本稿では,意思決定サイクルを容易にするために,表現を状態として学習するクロスチャネルハイパーグラフ埋め込みモジュールを提案する。 2つの実世界のデータセットに関する広範な実験により,sti-hrlが最先端の手法よりも優れていることが検証された。

In the realm of human mobility, the decision-making process for selecting the next-visit location is intricately influenced by a trade-off between spatial and temporal constraints, which are reflective of individual needs and preferences. This trade-off, however, varies across individuals, making the modeling of these spatial-temporal dynamics a formidable challenge. To address the problem, in this work, we introduce the "Spatial-temporal Induced Hierarchical Reinforcement Learning" (STI-HRL) framework, for capturing the interplay between spatial and temporal factors in human mobility decision-making. Specifically, STI-HRL employs a two-tiered decision-making process: the low-level focuses on disentangling spatial and temporal preferences using dedicated agents, while the high-level integrates these considerations to finalize the decision. To complement the hierarchical decision setting, we construct a hypergraph to organize historical data, encapsulating the multi-aspect semantics of human mobility. We propose a cross-channel hypergraph embedding module to learn the representations as the states to facilitate the decision-making cycle. Our extensive experiments on two real-world datasets validate the superiority of STI-HRL over state-of-the-art methods in predicting users' next visits across various performance metrics.
翻訳日:2023-12-27 16:39:53 公開日:2023-12-25
# マルウェア検出における小さな効果サイズ? ハードトレイン/テストスプリットを作れ!

Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! ( http://arxiv.org/abs/2312.15813v1 )

ライセンス: Link先を確認
Tirth Patel, Fred Lu, Edward Raff, Charles Nicholas, Cynthia Matuszek, James Holt(参考訳) 業界の実践者は、モデルが数億台のマシンにデプロイされるため、マルウェア検出精度の小さな改善を気にしている。 しかし、学術研究は1万のサンプルの順序で公開データセットに制限されることが多く、産業に関係のある改善を検出するには小さすぎる。 これらの制約の中で、利用可能なサンプルのプールから構成可能な難易度のベンチマークを生成するためのアプローチを考案します。 これは、avclassのようなツールからのマルウェアファミリー情報を利用して、セカンダリモデルによって測定されるように、異なる一般化率のトレーニング/テスト分割を構築することによって行われる。 実験では,より高精度な評価対象モデルに対するベンチマーク作成に,より精度の低い二次モデルを用いることが有効であることを実証する。 アプローチの必要性を示す代替設計にも反対しています。

Industry practitioners care about small improvements in malware detection accuracy because their models are deployed to hundreds of millions of machines, meaning a 0.1\% change can cause an overwhelming number of false positives. However, academic research is often restrained to public datasets on the order of ten thousand samples and is too small to detect improvements that may be relevant to industry. Working within these constraints, we devise an approach to generate a benchmark of configurable difficulty from a pool of available samples. This is done by leveraging malware family information from tools like AVClass to construct training/test splits that have different generalization rates, as measured by a secondary model. Our experiments will demonstrate that using a less accurate secondary model with disparate features is effective at producing benchmarks for a more sophisticated target model that is under evaluation. We also ablate against alternative designs to show the need for our approach.
翻訳日:2023-12-27 16:34:52 公開日:2023-12-25
# 強化学習を用いた閉ループマルチパースペクティブ視覚サーボ方式

A Closed-Loop Multi-perspective Visual Servoing Approach with Reinforcement Learning ( http://arxiv.org/abs/2312.15809v1 )

ライセンス: Link先を確認
Lei Zhang, Jiacheng Pei, Kaixin Bai, Zhaopeng Chen, Jianwei Zhang(参考訳) 従来の視覚サーボ法は、人間が視覚信号だけで完成できる複数の視点からのシーン間のサービスに苦しむ。 本稿では,ロボット特有の制約下でのマルチパースペクティブな視覚サーボ処理の解法について検討した。 強化学習を用いて視覚状態の潜在空間表現からロボット動作を反復的に推定する,新しい学習ベースのマルチパースペクティブ視覚サーボフレームワークを提案する。 さらに,OpenAI/Gymと接続したGazeboシミュレーション環境で,本手法の訓練と検証を行った。 シミュレーション実験により,本手法は異なる視点からの初期画像から最適な制御方針を学習できることを示し,97.0%の平均成功率で直接視覚サーボアルゴリズムを上回った。

Traditional visual servoing methods suffer from serving between scenes from multiple perspectives, which humans can complete with visual signals alone. In this paper, we investigated how multi-perspective visual servoing could be solved under robot-specific constraints, including self-collision, singularity problems. We presented a novel learning-based multi-perspective visual servoing framework, which iteratively estimates robot actions from latent space representations of visual states using reinforcement learning. Furthermore, our approaches were trained and validated in a Gazebo simulation environment with connection to OpenAI/Gym. Through simulation experiments, we showed that our method can successfully learn an optimal control policy given initial images from different perspectives, and it outperformed the Direct Visual Servoing algorithm with mean success rate of 97.0%.
翻訳日:2023-12-27 16:34:37 公開日:2023-12-25
# Astrocyte Regulated Neuromorphic CPG Control of Legged Robotic Locomotion (特集 バイオサイバネティックスとバイオサイバネティックス)

Astrocyte Regulated Neuromorphic CPG Control of Legged Robotic Locomotion ( http://arxiv.org/abs/2312.15805v1 )

ライセンス: Link先を確認
Zhuangyu Han, Abhronil Sengupta(参考訳) 低消費電力のイベント駆動型コンピューティングが約束されているため、バイオプロファイラブルな行動電位によって情報が伝達されるニューロモルフィックコンピューティングシステムへの関心が高まっている。 ロボット運動研究におけるニューロモルフィックコンピューティングの応用は、動物運動における四肢筋の協調を管理する神経回路から着想を得たバイオニックスロボット制御アルゴリズムのための中央パターンジェネレータ(CPG)に重点を置いている。 ニューロモルフィックハードウェアプラットフォーム上での人工CGGの実装は、資源制約環境における適応的でエネルギー効率のよいエッジロボティクスの応用を可能にする可能性がある。 しかし,cpgにおける歩行発生過程のメカニズムはよく分かっていない。 この研究は、cpg可塑性に関する文献の欠如に対処し、アストロサイト(複数の脳機能において主要な役割を果たすと考えられている脳内の細胞成分)の致命的なホメオスタティック機能を強調する。 本稿では,四足歩行ロボットのための報酬調整stdp (izhikevich 2007) を用いた歩行歩行学習のためのアストロサイト制御スパイキングニューラルネットワーク (snn) ベースのcpgを提案する。 SNNベースのCPGは、多目的物理シミュレーションプラットフォーム上でシミュレーションされ、平地でロボットを走らせながらトロッティング歩行が出現する。 23.3\times$ 計算パワーの節約は、最先端の強化学習に基づくロボット制御アルゴリズムと比較して観察される。 このような神経科学とアルゴリズムの共同設計アプローチは、グリア細胞機能を含む神経形態的システムの機能を量子的に飛躍させる可能性がある。

Neuromorphic computing systems, where information is transmitted through action potentials in a bio-plausible fashion, is gaining increasing interest due to its promise of low-power event-driven computing. Application of neuromorphic computing in robotic locomotion research have largely focused on Central Pattern Generators (CPGs) for bionics robotic control algorithms - inspired from neural circuits governing the collaboration of the limb muscles in animal movement. Implementation of artificial CPGs on neuromorphic hardware platforms can potentially enable adaptive and energy-efficient edge robotics applications in resource constrained environments. However, underlying rewiring mechanisms in CPG for gait emergence process is not well understood. This work addresses the missing gap in literature pertaining to CPG plasticity and underscores the critical homeostatic functionality of astrocytes - a cellular component in the brain that is believed to play a major role in multiple brain functions. This paper introduces an astrocyte regulated Spiking Neural Network (SNN)-based CPG for learning locomotion gait through Reward-Modulated STDP (Izhikevich 2007) for quadruped robots, where the astrocytes help build inhibitory connections among the artificial motor neurons in different limbs. The SNN-based CPG is simulated on a multi-object physics simulation platform resulting in the emergence of a trotting gait while running the robot on flat ground. $23.3\times$ computational power savings is observed in comparison to a state-of-the-art reinforcement learning based robot control algorithm. Such a neuroscience-algorithm co-design approach can potentially enable a quantum leap in the functionality of neuromorphic systems incorporating glial cell functionality.
翻訳日:2023-12-27 16:34:23 公開日:2023-12-25
# データの不均質性下での効率的なコンフォメーション予測

Efficient Conformal Prediction under Data Heterogeneity ( http://arxiv.org/abs/2312.15799v1 )

ライセンス: Link先を確認
Vincent Plassier, Nikita Kotelevskii, Aleksandr Rubashevskii, Fedor Noskov, Maksim Velikanov, Alexander Fishkov, Samuel Horvath, Martin Takac, Eric Moulines, Maxim Panov(参考訳) 共形予測(cp)は不確実性定量化のための強固な枠組みであり、予測の信頼性を確保するために重要である。 しかし、CPの一般的な手法はデータ交換可能性に大きく依存している。 非交換可能性に取り組む既存のアプローチは、最も単純な例を超えて計算できないメソッドに繋がる。 この研究は、cpに対する新しい効率的なアプローチを導入し、かなり一般的な非交換可能データ分散に対して確実に有効な信頼セットを生成する。 本稿では,エージェント間のデータの不均質性下での連合学習の難解な設定に応用し,一般理論を説明する。 本手法により,エージェントのパーソナライズされた予測セットを完全フェデレーション方式で構築することができる。 提案手法の有効性は実世界のデータセットに関する一連の実験で実証された。

Conformal Prediction (CP) stands out as a robust framework for uncertainty quantification, which is crucial for ensuring the reliability of predictions. However, common CP methods heavily rely on data exchangeability, a condition often violated in practice. Existing approaches for tackling non-exchangeability lead to methods that are not computable beyond the simplest examples. This work introduces a new efficient approach to CP that produces provably valid confidence sets for fairly general non-exchangeable data distributions. We illustrate the general theory with applications to the challenging setting of federated learning under data heterogeneity between agents. Our method allows constructing provably valid personalized prediction sets for agents in a fully federated way. The effectiveness of the proposed method is demonstrated in a series of experiments on real-world datasets.
翻訳日:2023-12-27 16:33:45 公開日:2023-12-25
# GenCast:中距離気象の拡散に基づくアンサンブル予測

GenCast: Diffusion-based ensemble forecasting for medium-range weather ( http://arxiv.org/abs/2312.15796v1 )

ライセンス: Link先を確認
Ilan Price, Alvaro Sanchez-Gonzalez, Ferran Alet, Timo Ewalds, Andrew El-Kadi, Jacklynn Stott, Shakir Mohamed, Peter Battaglia, Remi Lam, Matthew Willson(参考訳) 洪水予報やエネルギーシステム計画、交通経路など、重要な費用対効果のトレードオフや緩和策を導く上では、予測の不確実性(極端な事象の確率を含む)の定量化が不可欠である。 従来の確率論的アプローチは、時空間的に一貫性のある気象軌道上の共同分布からサンプリングされる物理モデルからアンサンブルを生成するが、実行には高価である。 効率的な代替手段は、機械学習(ML)予測モデルを使用してアンサンブルを生成することであるが、中距離気象に対する最先端のML予測モデルは、平均二乗誤差を最小化する決定論的予測を生成するために主に訓練されている。 スキルスコアは向上しているが、物理的な一貫性が欠如しており、リードタイムが長くなり、ジョイント分布を特徴付ける能力に影響を及ぼす。 我々は、再分析データから学習した、アンサンブル天気予報のためのMLベースの生成モデルGenCastを紹介する。 1つのクラウドtpu v4デバイス上のアンサンブルメンバー1分あたり約1分で、世界中に1度解像度で最大15日間、84の気象変数の軌道のアンサンブルを予測できる。 GenCastは,CRPSおよびEnsemble-Mean RMSE上の1320の検証対象のうち,96%以上において,高い信頼性と物理的に一貫したパワースペクトルを維持しつつ,最上位のアンサンブル予測であるENSよりも熟練していることを示す。 この結果から,MLに基づく確率的天気予報が従来のアンサンブルシステムよりも1度向上し,重要な応用に有用な,高度で高速な天気予報に新たな扉を開くことができた。

Probabilistic weather forecasting is critical for decision-making in high-impact domains such as flood forecasting, energy system planning or transportation routing, where quantifying the uncertainty of a forecast -- including probabilities of extreme events -- is essential to guide important cost-benefit trade-offs and mitigation measures. Traditional probabilistic approaches rely on producing ensembles from physics-based models, which sample from a joint distribution over spatio-temporally coherent weather trajectories, but are expensive to run. An efficient alternative is to use a machine learning (ML) forecast model to generate the ensemble, however state-of-the-art ML forecast models for medium-range weather are largely trained to produce deterministic forecasts which minimise mean-squared-error. Despite improving skills scores, they lack physical consistency, a limitation that grows at longer lead times and impacts their ability to characterize the joint distribution. We introduce GenCast, a ML-based generative model for ensemble weather forecasting, trained from reanalysis data. It forecasts ensembles of trajectories for 84 weather variables, for up to 15 days at 1 degree resolution globally, taking around a minute per ensemble member on a single Cloud TPU v4 device. We show that GenCast is more skillful than ENS, a top operational ensemble forecast, for more than 96\% of all 1320 verification targets on CRPS and Ensemble-Mean RMSE, while maintaining good reliability and physically consistent power spectra. Together our results demonstrate that ML-based probabilistic weather forecasting can now outperform traditional ensemble systems at 1 degree, opening new doors to skillful, fast weather forecasts that are useful in key applications.
翻訳日:2023-12-27 16:33:24 公開日:2023-12-25
# 二次元単純分布の階数について

On the rank of two-dimensional simplicial distributions ( http://arxiv.org/abs/2312.15794v1 )

ライセンス: Link先を確認
Cihan Okay(参考訳) 単純分布は、ベルの非局所性の一般化である量子文脈性を研究するための枠組みを提供する。 極端単純分布を理解することは、量子コンピューティングへの応用において基本的な重要性である。 2-次元計測空間で定義されるツイスト簡約分布の階数式を導入し,極値分布を記述するための体系的アプローチを提案する。

Simplicial distributions provide a framework for studying quantum contextuality, a generalization of Bell's non-locality. Understanding extremal simplicial distributions is of fundamental importance with applications to quantum computing. We introduce a rank formula for twisted simplicial distributions defined for $2$-dimensional measurement spaces and provide a systematic approach for describing extremal distributions.
翻訳日:2023-12-27 16:32:30 公開日:2023-12-25
# SantaQlaus: 変分量子アルゴリズムの最適化に量子ショットノイズを利用するリソース効率のよい方法

SantaQlaus: A resource-efficient method to leverage quantum shot-noise for optimization of variational quantum algorithms ( http://arxiv.org/abs/2312.15791v1 )

ライセンス: Link先を確認
Kosuke Ito and Keisuke Fujii(参考訳) 変動量子固有解法(VQE)と量子機械学習(QML)を応用した,変動量子アルゴリズム(VQA)に適した資源効率最適化アルゴリズムであるSantaQlausを紹介する。 VQAの古典的な最適化戦略は、しばしば局所的なミニマ点とサドル点の複雑な景観によって妨げられる。 既存のquantum-awareオプティマイザの中には,計測ショット数を適応的に調整するものもあるが,これらの課題に対処するためにqsn(quantum shot-noise)を戦略的に活用するよりも,イテレーション毎のゲインを最大化することを重視するものが多い。 古典的確率的アンネリングサーモスタットと適応運動量(Santa)アルゴリズムにインスパイアされたサンタクロースは、固有のQSNを最適化に用いている。 このアルゴリズムはアニーリングフレームワークにおける量子計測ショットの数を動的に調整する: 資源利用とランドスケープ探査を効率的に行うため、早期、高温の段階ではショット数が少ないが、精度を高めるために後にショット数を増やす。 VQE と QML の数値シミュレーションにより、サンタクロースは既存のオプティマイザよりも優れており、特に、ショット効率を維持しながら、局所最適度が低いことのリスクを軽減している。 これは量子変分モデルの効率的で堅牢なトレーニングの道を開く。

We introduce SantaQlaus, a resource-efficient optimization algorithm tailored for variational quantum algorithms (VQAs), including applications in the variational quantum eigensolver (VQE) and quantum machine learning (QML). Classical optimization strategies for VQAs are often hindered by the complex landscapes of local minima and saddle points. Although some existing quantum-aware optimizers adaptively adjust the number of measurement shots, their primary focus is on maximizing gain per iteration rather than strategically utilizing quantum shot-noise (QSN) to address these challenges. Inspired by the classical Stochastic AnNealing Thermostats with Adaptive momentum (Santa) algorithm, SantaQlaus explicitly leverages inherent QSN for optimization. The algorithm dynamically adjusts the number of quantum measurement shots in an annealing framework: fewer shots are allocated during the early, high-temperature stages for efficient resource utilization and landscape exploration, while more shots are employed later for enhanced precision. Numerical simulations on VQE and QML demonstrate that SantaQlaus outperforms existing optimizers, particularly in mitigating the risks of converging to poor local optima, all while maintaining shot efficiency. This paves the way for efficient and robust training of quantum variational models.
翻訳日:2023-12-27 16:32:23 公開日:2023-12-25
# 量子系の動的平衡における複雑性と作用素成長

Complexity and Operator Growth for Quantum Systems in Dynamic Equilibrium ( http://arxiv.org/abs/2312.15790v1 )

ライセンス: Link先を確認
Cameron Beetar, Nitin Gupta, S. Shajidul Haque, Jeff Murugan, Hendrik J R Van Zyl(参考訳) クリロフ複雑性(Krylov complexity)は、作用素の時間発展を近似するために必要な直交基底ベクトルの数に基づいて、量子系の作用素成長の尺度である。 本稿では,分散状態とラビ振動状態,超強結合状態とを分離する2つの相転移を示す発振器の$\mathsf{pt}$-symmetric系のクリロフ複雑性について検討する。 我々は、結合系のハミルトニアンを記述するためにバトマン発振器に付随する$su(1,1)$代数の一般化を使い、この代数に付随する一連のコヒーレント状態を構成する。 これらのコヒーレント状態を用いてkrylov (spread) の複雑性を計算し、 $\mathsf{pt}$-symmetric と $\mathsf{pt}$ symmetry-broken の位相を区別できることを見出す。 また、krylov複雑性はバトマン発振器の真空の性質が不明確なものであることも示しており、これは我々のシステムの特別な場合である。 以上の結果から,Krylov複雑性は$\mathsf{PT}$-symmetric系の性質と遷移を探索するツールとして有用であることを示す。

Krylov complexity is a measure of operator growth in quantum systems, based on the number of orthogonal basis vectors needed to approximate the time evolution of an operator. In this paper, we study the Krylov complexity of a $\mathsf{PT}$-symmetric system of oscillators, which exhibits two phase transitions that separate a dissipative state, a Rabi-oscillation state, and an ultra-strongly coupled regime. We use a generalization of the $su(1,1)$ algebra associated to the Bateman oscillator to describe the Hamiltonian of the coupled system, and construct a set of coherent states associated with this algebra. We compute the Krylov (spread) complexity using these coherent states, and find that it can distinguish between the $\mathsf{PT}$-symmetric and $\mathsf{PT}$ symmetry-broken phases. We also show that the Krylov complexity reveals the ill-defined nature of the vacuum of the Bateman oscillator, which is a special case of our system. Our results demonstrate the utility of Krylov complexity as a tool to probe the properties and transitions of $\mathsf{PT}$-symmetric systems.
翻訳日:2023-12-27 16:31:21 公開日:2023-12-25
# ロバスト確率決定型アンローディングネットワーク

Robust Stochastically-Descending Unrolled Networks ( http://arxiv.org/abs/2312.15788v1 )

ライセンス: Link先を確認
Samar Hadou, Navid NaderiAlizadeh, and Alejandro Ribeiro(参考訳) deep unrolling、あるいはunfoldingは、トレーニング可能なニューラルネットワークのレイヤに停止した反復アルゴリズムを展開する、新たな学習から最適化への方法だ。 しかし、未ロールネットワークの収束保証と一般化性は依然として理論的な問題である。 これらの問題に対処するために,我々は,訓練中に下降制約を課すことで,確率的降下特性を持つ深い未発達アーキテクチャを提供する。 降下制約は、各未ロール層が、平均して、トレーニング中に最適な降下ステップを取るように、層ごとに強制される。 理論上、未ロール層の出力によって構築されるシーケンスは、トレーニング問題とテスト問題の間の分散シフトを仮定して、目に見えない問題に対して収束することが保証される。 また、標準アンローリングは摂動に弱いことを示し、当社が課した制約は、加法雑音や摂動に頑健なアンローリングネットワークを提供する。 本研究では,学習可能な反復的縮小・しきい値化アルゴリズム(lista)を用いたスパース符号化と,近位生成フロー(glow-prox)を用いた画像インペインティングと,提案手法の性能とロバストネスの利点を示す。

Deep unrolling, or unfolding, is an emerging learning-to-optimize method that unrolls a truncated iterative algorithm in the layers of a trainable neural network. However, the convergence guarantees and generalizability of the unrolled networks are still open theoretical problems. To tackle these problems, we provide deep unrolled architectures with a stochastic descent nature by imposing descending constraints during training. The descending constraints are forced layer by layer to ensure that each unrolled layer takes, on average, a descent step toward the optimum during training. We theoretically prove that the sequence constructed by the outputs of the unrolled layers is then guaranteed to converge for unseen problems, assuming no distribution shift between training and test problems. We also show that standard unrolling is brittle to perturbations, and our imposed constraints provide the unrolled networks with robustness to additive noise and perturbations. We numerically assess unrolled architectures trained under the proposed constraints in two different applications, including the sparse coding using learnable iterative shrinkage and thresholding algorithm (LISTA) and image inpainting using proximal generative flow (GLOW-Prox), and demonstrate the performance and robustness benefits of the proposed method.
翻訳日:2023-12-27 16:30:43 公開日:2023-12-25
# AHAM:アダプティブ、ヘルプ、Ask、Model -- 文学採掘のためのLLMのハーベスティング

AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining ( http://arxiv.org/abs/2312.15784v1 )

ライセンス: Link先を確認
Boshko Koloski and Nada Lavra\v{c} and Bojan Cestnik and Senja Pollak and Bla\v{z} \v{S}krlj and Andrej Kastrin(参考訳) 科学出版物の急速な増加が特徴の時代には、研究者はフィールド固有の進歩とペースを維持するという課題に悩まされた。 本稿では,'aham' の方法論と,bertopic トピックモデリングフレームワークのドメイン固有な \textbf{adapt}ation を導いて,科学的なテキスト解析を改善するためのメトリクスを提案する。 LLaMa2生成言語モデルを利用することで、ドメインエキスパートの『textbf{help}』のプロンプトを用いて一発学習によるトピック定義を生成し、そのトピック名をモデル化するために『textbf{asking}』による文献マイニングのためのLLMを導出する。 トピック間の類似度評価のために,言語生成および翻訳プロセスからのメトリクスを活用して,生成したトピックの語彙的および意味的類似度を評価する。 本システムの目的は,外れた話題の比率とトピックの総数と,トピック定義の類似度を両立させることである。 この手法は、文献に基づく発見に関する新しい研究論文のコーパスで評価されている。 ドメインの専門家による厳密な評価を通じて、AHAMは幅広い研究領域における興味と新しい洞察を明らかにするのに有効であることが検証された。 本稿では, arXiv と medarxiv 内の特定の科学領域に特化する2つのデータセットを用いたトピック \textbf{model} タスクに対する文変換器のドメイン適応の影響について検討する。 我々は,データサイズの影響,適応のニッチ,ドメイン適応の重要性を評価する。 以上より,外れ値とトピック定義の観点から,ドメイン適応とトピックモデリングの精度との間に強い相互作用が示唆された。

In an era marked by a rapid increase in scientific publications, researchers grapple with the challenge of keeping pace with field-specific advances. We present the `AHAM' methodology and a metric that guides the domain-specific \textbf{adapt}ation of the BERTopic topic modeling framework to improve scientific text analysis. By utilizing the LLaMa2 generative language model, we generate topic definitions via one-shot learning by crafting prompts with the \textbf{help} of domain experts to guide the LLM for literature mining by \textbf{asking} it to model the topic names. For inter-topic similarity evaluation, we leverage metrics from language generation and translation processes to assess lexical and semantic similarity of the generated topics. Our system aims to reduce both the ratio of outlier topics to the total number of topics and the similarity between topic definitions. The methodology has been assessed on a newly gathered corpus of scientific papers on literature-based discovery. Through rigorous evaluation by domain experts, AHAM has been validated as effective in uncovering intriguing and novel insights within broad research areas. We explore the impact of domain adaptation of sentence-transformers for the task of topic \textbf{model}ing using two datasets, each specialized to specific scientific domains within arXiv and medarxiv. We evaluate the impact of data size, the niche of adaptation, and the importance of domain adaptation. Our results suggest a strong interaction between domain adaptation and topic modeling precision in terms of outliers and topic definitions.
翻訳日:2023-12-27 16:30:17 公開日:2023-12-25
# 弱カー非線形性を持つボソニック系の普遍制御

Universal Control in Bosonic Systems with Weak Kerr Nonlinearities ( http://arxiv.org/abs/2312.15783v1 )

ライセンス: Link先を確認
Ming Yuan, Alireza Seif, Andrew Lingenfelter, David I. Schuster, Aashish A. Clerk, Liang Jiang(参考訳) 弱い単光子自己Kerr非線形性を持つ共振器は、理論的にはフォック状態がそれらの非線形性よりもはるかに大きい損失が存在する場合に備えるために用いられる。 2つの必要な材料は、大きな変位と2光子駆動である。 ここでは、これらの系は有限次元部分空間において任意の所望ゲート演算を達成するために制御できる(その次元性は任意に選択できる)。 さらに、2光子駆動要件を緩和し、1光子(線形)駆動のみで完全な制御性が達成可能であることを示す。 我々はトロッタースズキ分解と勾配に基づく最適化の両方を用いて所望のゲートの制御パルスを求める。 また、現実的な設定における入力電力制限による不確かさや、回転波近似による補正についても論じる。 我々の普遍制御プロトコルは、弱い非線形性を持つ幅広い損失系を用いた量子情報処理の可能性を開く。

Resonators with weak single-photon self-Kerr nonlinearities can theoretically be used to prepare Fock states in the presence of a loss much larger than their nonlinearities. Two necessary ingredients are large displacements and a two-photon (parametric) drive. Here, we find that these systems can be controlled to achieve any desired gate operation in a finite dimensional subspace (whose dimensionality can be chosen at will). Moreover, we show that the two-photon driving requirement can be relaxed and that full controllability is achievable with only 1-photon (linear) drives. We make use of both Trotter-Suzuki decompositions and gradient-based optimization to find control pulses for a desired gate, which reduces the computational overhead by using a small blockaded subspace. We also discuss the infidelity arising from input power limitations in realistic settings, as well as from corrections to the rotating-wave approximation. Our universal control protocol opens the possibility for quantum information processing using a wide range of lossy systems with weak nonlinearities.
翻訳日:2023-12-27 16:29:46 公開日:2023-12-25
# ウズベク音節抽出ツールの設計と実装

Design and Implementation of a Tool for Extracting Uzbek Syllables ( http://arxiv.org/abs/2312.15779v1 )

ライセンス: Link先を確認
Ulugbek Salaev, Elmurod Kuriyozov, Gayrat Matlatipov(参考訳) 単語の正確な音節化は、様々な自然言語処理アプリケーションにおいて重要な役割を果たす。 音節化(syllabification)は、言語研究、言語技術、教育、および言語理解と処理が不可欠である様々な分野に応用される多用途言語ツールである。 本稿では,ルールに基づく手法や機械学習アルゴリズムを含む,ウズベク語の音節化に関する包括的アプローチを提案する。 規則に基づく手法では,単語を音節に分割し,線断線や音節数をハイフン化する高度な手法を用いる。 さらに,単語の音節マッピング,ハイフン化,音節数を含む機械学習アルゴリズムを用いて,音節数を予測するデータセットを収集し,提案モデルの評価を行った。 以上の結果から, 両手法の有効性と有効性を示した。 実験の結果,両アプローチは高い精度を示し,99%以上であった。 この研究は、ウズベク語そのものだけでなく、低リソースの要因を持つ他の近縁なテュルク諸語においても、音節化と関連する分野に関する今後の研究のための貴重な洞察と助言を提供する。

The accurate syllabification of words plays a vital role in various Natural Language Processing applications. Syllabification is a versatile linguistic tool with applications in linguistic research, language technology, education, and various fields where understanding and processing language is essential. In this paper, we present a comprehensive approach to syllabification for the Uzbek language, including rule-based techniques and machine learning algorithms. Our rule-based approach utilizes advanced methods for dividing words into syllables, generating hyphenations for line breaks and count of syllables. Additionally, we collected a dataset for evaluating and training using machine learning algorithms comprising word-syllable mappings, hyphenations, and syllable counts to predict syllable counts as well as for the evaluation of the proposed model. Our results demonstrate the effectiveness and efficiency of both approaches in achieving accurate syllabification. The results of our experiments show that both approaches achieved a high level of accuracy, exceeding 99%. This study provides valuable insights and recommendations for future research on syllabification and related areas in not only the Uzbek language itself, but also in other closely-related Turkic languages with low-resource factor.
翻訳日:2023-12-27 16:29:30 公開日:2023-12-25
# テキストフリービデオによるテキスト・ビデオ生成のスケールアップ

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos ( http://arxiv.org/abs/2312.15770v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang(参考訳) 拡散ベースのテキスト・ビデオ・ジェネレーションは、過去1年で目覚ましい進歩を遂げた。 主要な理由の1つは、ビデオキャプションのコストが高いことを考慮して、公開データの限られた規模(例えば、WebVid10MとLAIONの5B画像テキストペア)である。 代わりに、youtubeのようなビデオプラットフォームからラベルなしのクリップを集めるのがずっと簡単になるかもしれない。 tf-t2vという,テキストフリービデオで直接学習可能な,新たなテキスト対ビデオ生成フレームワークを考案しました。 背景にある理論的根拠は、テキストデコーディングのプロセスと、時間的モデリングのプロセスを切り離すことである。 この目的のために,コンテンツブランチとモーションブランチを併用し,重みの共有を共同で最適化する。 このようなパイプラインに続いて,ランダムに収集したテキストフリービデオを用いて,トレーニングセット(ビデオのみのwebvid10m)のスケールを2倍にすることで,パフォーマンス向上(5.67~8.19,fvd:484~441)の観察を奨励し,このアプローチのスケーラビリティを実証した。 また,本モデルでは,トレーニング用テキストラベルの再導入により,持続的なパフォーマンス向上(FID:8.19から7.64,FVD:41から366)を享受できることがわかった。 最後に、ネイティブテキスト・ビデオ生成と合成ビデオ合成のパラダイムにおけるイデオロギーの有効性と一般化性を検証する。 コードとモデルはhttps://tf-t2v.github.io/で公開される。

Diffusion-based text-to-video generation has witnessed impressive progress in the past year yet still falls behind text-to-image generation. One of the key reasons is the limited scale of publicly available data (e.g., 10M video-text pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost of video captioning. Instead, it could be far easier to collect unlabeled clips from video platforms like YouTube. Motivated by this, we come up with a novel text-to-video generation framework, termed TF-T2V, which can directly learn with text-free videos. The rationale behind is to separate the process of text decoding from that of temporal modeling. To this end, we employ a content branch and a motion branch, which are jointly optimized with weights shared. Following such a pipeline, we study the effect of doubling the scale of training set (i.e., video-only WebVid10M) with some randomly collected text-free videos and are encouraged to observe the performance improvement (FID from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of our approach. We also find that our model could enjoy sustainable performance gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some text labels for training. Finally, we validate the effectiveness and generalizability of our ideology on both native text-to-video generation and compositional video synthesis paradigms. Code and models will be publicly available at https://tf-t2v.github.io/.
翻訳日:2023-12-27 16:29:10 公開日:2023-12-25
# Lp-Norm制約1クラス分類器の組み合わせ

Lp-Norm Constrained One-Class Classifier Combination ( http://arxiv.org/abs/2312.15769v1 )

ライセンス: Link先を確認
Sepehr Nourmohammadi and Shervin Rahimzadeh Arashloo(参考訳) 分類器融合は異なる設定における性能を高める効果的な手法として確立されており、一級分類は例外ではない。 本研究では,アンサンブルのスパルシリティ/一様性をモデル化し,一クラス分類子融合問題を考える。 この目的のために、線形アンサンブルモデルにおいて重みを学習するために凸目的関数を定式化し、重みベクトルに可変lpノルム制約を課す。 ベクトルノルム制約により、ベース学習者の空間におけるアンサンブルの内在的均一性/スパース性に適応し、融合重みの相対的な大きさを形作ることにより(ソフト)分類器選択機構として機能する。 そこで,Frank-Wolfeアルゴリズムを用いて,定式化された凸制約最適化問題の解法を提案する。 提案手法は,多種多様なアプリケーションドメインの複数データセットに対して提案する1クラス分類器の組み合わせアプローチを評価し,そのメリットを既存手法と比較した。

Classifier fusion is established as an effective methodology for boosting performance in different settings and one-class classification is no exception. In this study, we consider the one-class classifier fusion problem by modelling the sparsity/uniformity of the ensemble. To this end, we formulate a convex objective function to learn the weights in a linear ensemble model and impose a variable Lp-norm constraint on the weight vector. The vector-norm constraint enables the model to adapt to the intrinsic uniformity/sparsity of the ensemble in the space of base learners and acts as a (soft) classifier selection mechanism by shaping the relative magnitudes of fusion weights. Drawing on the Frank-Wolfe algorithm, we then present an effective approach to solve the formulated convex constrained optimisation problem efficiently. We evaluate the proposed one-class classifier combination approach on multiple data sets from diverse application domains and illustrate its merits in comparison to the existing approaches.
翻訳日:2023-12-27 16:28:37 公開日:2023-12-25
# ロバストなwaserstein barycenter:モデルとアルゴリズムについて

On Robust Wasserstein Barycenter: The Model and Algorithm ( http://arxiv.org/abs/2312.15762v1 )

ライセンス: Link先を確認
Xu Wang, Jiawei Huang, Qingyuan Yang, Jinpeng Zhang(参考訳) ヴァッサーシュタインのバリセンタ問題は、多くの異なる領域で広く研究されている平均$m$の確率測度を計算することであるが、現実のデータセットはしばしばうるさくて巨大であり、実際にはその応用を妨げている。 そこで本稿では,2種類のロバストなWasserstein Barycenter問題(RWB):固定サポートRWB(fixed-RWB)と自由サポートRWB(free-RWB)の計算効率の向上に焦点をあてる。 まず、モデル還元による効率の改善を行い、固定RWBと自由RWBの両方で機能する拡張ワッサーシュタインバリセンタ問題としてRWBを削減する。 特に、固定rwb は、既定の加算誤差である $\epsilon_+$ と入力測度の位置の大きさである $n$ を用いて、既定のソルバを用いて $\widetilde{o}(\frac{mn^2}{\epsilon_+})$ 内で計算することができる。 そして,自由RWBの場合,品質保証データ圧縮技術であるcoresetを活用し,データセットサイズを$m$にすることで計算を高速化する。 コアセット上でのアルゴリズムの実行は、元のデータセットではなく、十分であることを示している。 次に,モデル削減手法とコアセット手法を組み合わせることで,重みと位置を交互に更新することで,自由RWBのアルゴリズムを提案する。 最後に,実験によりその効果を実証した。

The Wasserstein barycenter problem is to compute the average of $m$ given probability measures, which has been widely studied in many different areas; however, real-world data sets are often noisy and huge, which impedes its applications in practice. Hence, in this paper, we focus on improving the computational efficiency of two types of robust Wasserstein barycenter problem (RWB): fixed-support RWB (fixed-RWB) and free-support RWB (free-RWB); actually, the former is a subroutine of the latter. Firstly, we improve efficiency through model reducing; we reduce RWB as an augmented Wasserstein barycenter problem, which works for both fixed-RWB and free-RWB. Especially, fixed-RWB can be computed within $\widetilde{O}(\frac{mn^2}{\epsilon_+})$ time by using an off-the-shelf solver, where $\epsilon_+$ is the pre-specified additive error and $n$ is the size of locations of input measures. Then, for free-RWB, we leverage a quality guaranteed data compression technique, coreset, to accelerate computation by reducing the data set size $m$. It shows that running algorithms on the coreset is enough instead of on the original data set. Next, by combining the model reducing and coreset techniques above, we propose an algorithm for free-RWB by updating the weights and locations alternatively. Finally, our experiments demonstrate the efficiency of our techniques.
翻訳日:2023-12-27 16:28:19 公開日:2023-12-25
# グラフニューラルネットワークを用いた病理組織データの放射能特徴と遺伝子発現プロファイルの比較解析

Comparative Analysis of Radiomic Features and Gene Expression Profiles in Histopathology Data Using Graph Neural Networks ( http://arxiv.org/abs/2312.15825v1 )

ライセンス: Link先を確認
Luis Carlos Rivera Monroy, Leonhard Rist, Martin Eberhardt, Christian Ostalecki, Andreas Bauer, Julio Vera, Katharina Breininger, Andreas Maier(参考訳) 本研究は,メラノーマ分類におけるMELCデータと放射能抽出機能の統合にグラフニューラルネットワークを利用する。 遺伝子発現プロファイルと放射線学的特徴の有効性を評価し、特にumapと組み合わせることで分類性能が著しく向上することを明らかにした。 特に、Radiomicsを使用することは、少ない染色から臨界データを抽出できるため、診断精度と計算効率が向上し、運用コストが削減される。 この手法はメラノーマ細胞分類のための計算皮膚学の進歩を示し、将来の研究と潜在的な発展の舞台を定めている。

This study leverages graph neural networks to integrate MELC data with Radiomic-extracted features for melanoma classification, focusing on cell-wise analysis. It assesses the effectiveness of gene expression profiles and Radiomic features, revealing that Radiomic features, particularly when combined with UMAP for dimensionality reduction, significantly enhance classification performance. Notably, using Radiomics contributes to increased diagnostic accuracy and computational efficiency, as it allows for the extraction of critical data from fewer stains, thereby reducing operational costs. This methodology marks an advancement in computational dermatology for melanoma cell classification, setting the stage for future research and potential developments.
翻訳日:2023-12-27 16:19:19 公開日:2023-12-25
# Few-Shot Bird Sound 分類のための自己教師付き学習

Self-Supervised Learning for Few-Shot Bird Sound Classification ( http://arxiv.org/abs/2312.15824v1 )

ライセンス: Link先を確認
Ilyass Moummad and Romain Serizel and Nicolas Farrugia(参考訳) オーディオにおける自己教師付き学習(SSL)は、特に、豊富なラベルのないデータが無償で容易に利用できる状況において、様々な領域において大きな可能性を秘めている。 これは生物音響学において特に重要であり、生物学者は自然環境から広範囲の音響データセットを定期的に収集する。 本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。 実験の結果,これらの学習表現は,数発学習(FSL)シナリオで新しい鳥類に一般化する能力を示すことが示された。 さらに,事前学習した音声ニューラルネットワークを用いて,鳥の活性化度の高いウィンドウを選択することで,学習表現の質が著しく向上することを示す。

Self-supervised learning (SSL) in audio holds significant potential across various domains, particularly in situations where abundant, unlabeled data is readily available at no cost. This is particularly pertinent in bioacoustics, where biologists routinely collect extensive sound datasets from the natural environment. In this study, we demonstrate that SSL is capable of acquiring meaningful representations of bird sounds from audio recordings without the need for annotations. Our experiments showcase that these learned representations exhibit the capacity to generalize to new bird species in few-shot learning (FSL) scenarios. Additionally, we show that selecting windows with high bird activation for self-supervised learning, using a pretrained audio neural network, significantly enhances the quality of the learned representations.
翻訳日:2023-12-27 16:19:05 公開日:2023-12-25
# 極低SNR物体の連続検出と追跡

A Sequential Detection and Tracking of Very Low SNR Objects ( http://arxiv.org/abs/2312.15823v1 )

ライセンス: Link先を確認
Reza Rezaie(参考訳) 非常に低信号対雑音(SNR)オブジェクトの検出と追跡のためのシーケンシャル検出と追跡(SDT)手法を提案する。 提案手法は,既存の2つの粒子フィルタトラック (TBD) 法と比較した。 前者が後者より優れていることが示されている。 1データフレームのしきい値に基づく従来の検出と追跡(CDT)アプローチは,比較のためのベンチマークとして検討されている。 シミュレーションはパフォーマンスを示します。

A sequential detection and tracking (SDT) approach is proposed for detection and tracking of very low signal-to-noise (SNR) objects. The proposed approach is compared with two existing particle filter track-before-track (TBD) methods. It is shown that the former outperforms the latter. A conventional detection and tracking (CDT) approach, based on one-data-frame thresholding, is considered as a benchmark for comparison. Simulations demonstrate the performance.
翻訳日:2023-12-27 16:18:51 公開日:2023-12-25
# Audiobox: 自然言語のプロンプトによる統一オーディオ生成

Audiobox: Unified Audio Generation with Natural Language Prompts ( http://arxiv.org/abs/2312.15821v1 )

ライセンス: Link先を確認
Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu(参考訳) オーディオは私たちの生活の不可欠な部分ですが、それを作るには専門知識が必要で、時間がかかります。 過去1年間、研究コミュニティは、より強力な生成モデルとスケールデータを採用し、単一のモダリティ(音声、音楽)のための大規模な音声生成モデルのパフォーマンスを進歩させてきた。 しかし、これらのモデルはいくつかの面で制御性に欠けており、音声生成モデルはテキスト記述に基づいて新しいスタイルを合成することはできず、アウトドア環境のようなドメインカバレッジに制限される。 本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。 説明ベースと例ベースに基づくプロンプトをデザインし,制御性を高め,音声・音声生成パラダイムを統一する。 音声を生成する際には,テキスト,音声,その他の音声スタイルを独立に制御することができる。 限定ラベルによるモデル一般化を改善するため,多数の未ラベル音声の事前学習に自己教師付き埋込目標を適用した。 Audioboxは、音声と音声の生成に関する新しいベンチマーク(ゼロショットTSでLibrispeechに0.745、テキストから音声でAudioCapsに0.77 FAD)を設定し、新しいボーカルと音響スタイルで音声を生成する新しいメソッドをアンロックする。 我々はさらに,フローマッチングのための既定のodeソルバと比較して25倍以上の速度で生成を高速化するbespokeソルバを,複数のタスクでパフォーマンスを損なうことなく統合する。 デモはhttps://audiobox.metademolab.com/で公開しています。

Audio is an essential part of our life, but creating it often requires expertise and is time-consuming. Research communities have made great progress over the past year advancing the performance of large scale audio generative models for a single modality (speech, sound, or music) through adopting more powerful generative models and scaling data. However, these models lack controllability in several aspects: speech generation models cannot synthesize novel styles based on text description and are limited on domain coverage such as outdoor environments; sound generation models only provide coarse-grained control based on descriptions like "a person speaking" and would only generate mumbling human voices. This paper presents Audiobox, a unified model based on flow-matching that is capable of generating various audio modalities. We design description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms. We allow transcript, vocal, and other audio styles to be controlled independently when generating speech. To improve model generalization with limited labels, we adapt a self-supervised infilling objective to pre-train on large quantities of unlabeled audio. Audiobox sets new benchmarks on speech and sound generation (0.745 similarity on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and unlocks new methods for generating audio with novel vocal and acoustic styles. We further integrate Bespoke Solvers, which speeds up generation by over 25 times compared to the default ODE solver for flow-matching, without loss of performance on several tasks. Our demo is available at https://audiobox.metademolab.com/
翻訳日:2023-12-27 16:18:44 公開日:2023-12-25
# WebVLN: ウェブサイトの視覚・言語ナビゲーション

WebVLN: Vision-and-Language Navigation on Websites ( http://arxiv.org/abs/2312.15820v1 )

ライセンス: Link先を確認
Qi Chen, Dileepa Pitawela, Chongyang Zhao, Gengze Zhou, Hsiang-Ting Chen, Qi Wu(参考訳) Vision-and-Language Navigation(VLN)タスクは、AIエージェントが現実世界の環境をナビゲートするための自然言語命令を正確に理解し、追跡し、最終的に特定のターゲット位置に到達することを目的としている。 私たちはvlnを、インターネット上のウェブサイトをナビゲートする仮想領域において、私たちの日常生活において重要な意味を持つ同等のナビゲーションタスクに拡張する有望な機会を認識しています。 本稿では,webサイトにおける視覚言語ナビゲーション(vision-and-language navigation on websites, webvln)というタスクを提案する。 ビジョンとインストラクション(言語)にのみ注意を払う既存のVLNタスクとは異なり、WebVLNエージェントはさらに、レンダリングされたWebページでは見えないHTMLのような基盤となるWeb固有のコンテンツについて検討している。 この目標に向けて、WebVLN-v1というデータセットを提供し、Webサイト対応VLNネットワーク(WebVLN-Net)と呼ばれる新しいアプローチを導入する。 実験の結果,WebVLN-Netは現在のVLNおよびWeb関連ナビゲーション手法よりも優れていた。 我々は、新しいWebVLNタスクとそのデータセットの導入が、VLNドメイン内の新しい次元を確立し、より広いビジョンと言語の研究コミュニティに貢献すると考えている。 コードは、https://github.com/WebVLN/WebVLNで入手できる。

Vision-and-Language Navigation (VLN) task aims to enable AI agents to accurately understand and follow natural language instructions to navigate through real-world environments, ultimately reaching specific target locations. We recognise a promising opportunity to extend VLN to a comparable navigation task that holds substantial significance in our daily lives, albeit within the virtual realm: navigating websites on the Internet. This paper proposes a new task named Vision-and-Language Navigation on Websites (WebVLN), where we use question-based instructions to train an agent, emulating how users naturally browse websites. Unlike the existing VLN task that only pays attention to vision and instruction (language), the WebVLN agent further considers underlying web-specific content like HTML, which could not be seen on the rendered web pages yet contains rich visual and textual information. Toward this goal, we contribute a dataset, WebVLN-v1, and introduce a novel approach called Website-aware VLN Network (WebVLN-Net), which is built upon the foundation of state-of-the-art VLN techniques. Experimental results show that WebVLN-Net outperforms current VLN and web-related navigation methods. We believe that the introduction of the new WebVLN task and its dataset will establish a new dimension within the VLN domain and contribute to the broader vision-and-language research community. The code is available at: https://github.com/WebVLN/WebVLN.
翻訳日:2023-12-27 16:18:13 公開日:2023-12-25
# 競合製品とのソーシャルネットワークにおけるバイラルマーケティング

Viral Marketing in Social Networks with Competing Products ( http://arxiv.org/abs/2312.15819v1 )

ライセンス: Link先を確認
Ahad N. Zehmakan, Xiaotian Zhou, Zhongzhi Zhang(参考訳) 各ノードが赤(赤製品を使用)、青(青製品を使用)、無色(未決定)のいずれかである有向ネットワークを考える。 そして、各ラウンドにおいて、無色ノードは、その赤(resp.blue)の近傍の数に比例する確率で赤(resp.blue)を選択する。 k$レッドシードノードを選択する予算が与えられた場合、最終的なレッドノード数を最大化する最善の戦略は何でしょう? この問題を計算的に困難であると証明した後、最適近似保証付き多項式時間近似アルゴリズムを提供し、目的関数の単調性と部分モジュラリティに基づいてモンテカルロ法を利用する。 さらに,実世界および合成ネットワークにおける実験により,提案アルゴリズムが他のアルゴリズムより優れていることを示す。 さらに,上記の過程の収束時間を理論的および実験的に検討する。 特に,ノード数・エッジ数・最大外度・直径などの異なるグラフパラメータの観点から,収束時間に関するいくつかの厳密な境界を,新しい証明手法の開発によって証明する。

Consider a directed network where each node is either red (using the red product), blue (using the blue product), or uncolored (undecided). Then in each round, an uncolored node chooses red (resp. blue) with some probability proportional to the number of its red (resp. blue) out-neighbors. What is the best strategy to maximize the expected final number of red nodes given the budget to select $k$ red seed nodes? After proving that this problem is computationally hard, we provide a polynomial time approximation algorithm with the best possible approximation guarantee, building on the monotonicity and submodularity of the objective function and exploiting the Monte Carlo method. Furthermore, our experiments on various real-world and synthetic networks demonstrate that our proposed algorithm outperforms other algorithms. Additionally, we investigate the convergence time of the aforementioned process both theoretically and experimentally. In particular, we prove several tight bounds on the convergence time in terms of different graph parameters, such as the number of nodes/edges, maximum out-degree and diameter, by developing novel proof techniques.
翻訳日:2023-12-27 16:17:46 公開日:2023-12-25
# 自律運転システムにおけるライダーポイント雲の同時マッピングのためのコントラスト学習ベースフレームワーク

Contrastive Learning-Based Framework for Sim-to-Real Mapping of Lidar Point Clouds in Autonomous Driving Systems ( http://arxiv.org/abs/2312.15817v1 )

ライセンス: Link先を確認
Hamed Haghighi, Mehrdad Dianati, Kurt Debattista, Valentina Donzella(参考訳) 知覚センサーモデルは、自動車シミュレーション環境の重要な要素であり、深層学習に基づく知覚モデルをトレーニングするための合成データセットを作成する強力なツールとしても機能する。 リアルな知覚センサモデルの開発は、シミュレーションされたセンサデータと現実世界のセンサー出力との間に大きなギャップがあるため、大きな課題となる。 この問題に対処するために、学習ベースのモデルは近年、低忠実度シミュレーションセンサーデータを非常に現実的な出力にマッピングする非並列ポテンシャルを持つ有望な解決策として現れてきた。 この可能性に動機づけられた本論文は、自動運転システムで広く使われている知覚センサlidar point cloudのsim-to-realマッピングに焦点を当てている。 画像と画像の翻訳技術の最近の進歩に触発された、コントラシティブ・ラーニングに基づく新しいSim-to-Realマッピングフレームワーク、すなわちCRS2Rを紹介する。 提案した CLS2R フレームワークは,深度,反射率,レイドロップといった重要な Lidar 属性をすべて考慮し,ライダー点雲のロスレス表現を用いている。 提案手法を最新の画像から画像への変換手法と比較し,実存性,忠実性,ダウンストリームタスクのパフォーマンスへの影響を多種多様な指標を用いて評価した。 以上の結果から,CLS2Rはほとんど全ての指標において優れた性能を示した。 ソースコードはhttps://github.com/hamedhaghighi/CLS2R.gitで入手できる。

Perception sensor models are essential elements of automotive simulation environments; they also serve as powerful tools for creating synthetic datasets to train deep learning-based perception models. Developing realistic perception sensor models poses a significant challenge due to the large gap between simulated sensor data and real-world sensor outputs, known as the sim-to-real gap. To address this problem, learning-based models have emerged as promising solutions in recent years, with unparalleled potential to map low-fidelity simulated sensor data into highly realistic outputs. Motivated by this potential, this paper focuses on sim-to-real mapping of Lidar point clouds, a widely used perception sensor in automated driving systems. We introduce a novel Contrastive-Learning-based Sim-to-Real mapping framework, namely CLS2R, inspired by the recent advancements in image-to-image translation techniques. The proposed CLS2R framework employs a lossless representation of Lidar point clouds, considering all essential Lidar attributes such as depth, reflectance, and raydrop. We extensively evaluate the proposed framework, comparing it with state-of-the-art image-to-image translation methods using a diverse range of metrics to assess realness, faithfulness, and the impact on the performance of a downstream task. Our results show that CLS2R demonstrates superior performance across nearly all metrics. Source code is available at https://github.com/hamedhaghighi/CLS2R.git.
翻訳日:2023-12-27 16:17:24 公開日:2023-12-25
# TEILP:論理推論による知識グラフの時間予測

TEILP: Time Prediction over Knowledge Graphs via Logical Reasoning ( http://arxiv.org/abs/2312.15816v1 )

ライセンス: Link先を確認
Siheng Xiong, Yuan Yang, Ali Payani, James C Kerce, Faramarz Fekri(参考訳) 従来の埋め込みモデルでは、時間的知識グラフ(TKG)のイベント時間予測をランキング問題として扱う。 しかし、しばしば順序や距離といった重要な時間関係を捉えるのに不足する。 本稿では,このような時間的要素を知識グラフ予測に自然に統合する論理的推論フレームワークTEILPを提案する。 まず,tkgを時間的事象知識グラフ(tekg)に変換し,そのグラフのノードの項における時間表現をより明確化する。 TEKGは、時間予測のための微分可能なランダムウォーク手法を開発する。 最後に、条件付き確率密度関数を導入し、クエリ間隔を含む論理規則に関連付けて、時間予測に着く。 TEILPを5つのベンチマークデータセットの最先端手法と比較する。 本モデルは,解釈可能な説明を提供しながら,ベースラインよりも大幅に改善できることを示す。 特に、トレーニングサンプルが限定され、イベントタイプが不均衡であり、過去のイベントのみに基づいて将来のイベントの時刻を予測するシナリオをいくつか検討する。 これらすべてのケースにおいて、TEILPは堅牢性の観点から最先端のメソッドよりも優れています。

Conventional embedding-based models approach event time prediction in temporal knowledge graphs (TKGs) as a ranking problem. However, they often fall short in capturing essential temporal relationships such as order and distance. In this paper, we propose TEILP, a logical reasoning framework that naturaly integrates such temporal elements into knowledge graph predictions. We first convert TKGs into a temporal event knowledge graph (TEKG) which has a more explicit representation of time in term of nodes of the graph. The TEKG equips us to develop a differentiable random walk approach to time prediction. Finally, we introduce conditional probability density functions, associated with the logical rules involving the query interval, using which we arrive at the time prediction. We compare TEILP with state-of-the-art methods on five benchmark datasets. We show that our model achieves a significant improvement over baselines while providing interpretable explanations. In particular, we consider several scenarios where training samples are limited, event types are imbalanced, and forecasting the time of future events based on only past events is desired. In all these cases, TEILP outperforms state-of-the-art methods in terms of robustness.
翻訳日:2023-12-27 16:16:57 公開日:2023-12-25
# 音声言語理解における合成一般化

Compositional Generalization in Spoken Language Understanding ( http://arxiv.org/abs/2312.15815v1 )

ライセンス: Link先を確認
Avik Ray, Yilin Shen, Hongxia Jin(参考訳) 最先端の音声言語理解(SLU)モデルは、ベンチマークSLUデータセットで非常に成功したが、限られたトレーニングデータでトレーニングされた際のモデル構成性の欠如により、多くの現実的なシナリオで失敗している。 本稿では,2種類の構成性について考察する。 (a)新規スロットの組み合わせ、及び b) 長さの一般化。 まず、深度分析を行い、最先端のSLUモデルはトレーニング中にスプリアススロット相関を学習し、両方の構成ケースで性能が劣ることがわかった。 これらの制約を緩和するために、ベンチマークSLUデータセットの最初の構成分割を作成し、各構成ケースに対応する構成損失とペアトレーニングを含む、最初の構成SLUモデルを提案する。 ATIS と SNIPS のベンチマークおよびコンポジション分割では,我々の合成 SLU モデルは,最先端の BERT SLU モデルよりも有意に優れていた(最大 5 %$ F1 スコア)。

State-of-the-art spoken language understanding (SLU) models have shown tremendous success in benchmark SLU datasets, yet they still fail in many practical scenario due to the lack of model compositionality when trained on limited training data. In this paper, we study two types of compositionality: (a) novel slot combination, and (b) length generalization. We first conduct in-depth analysis, and find that state-of-the-art SLU models often learn spurious slot correlations during training, which leads to poor performance in both compositional cases. To mitigate these limitations, we create the first compositional splits of benchmark SLU datasets and we propose the first compositional SLU model, including compositional loss and paired training that tackle each compositional case respectively. On both benchmark and compositional splits in ATIS and SNIPS, we show that our compositional SLU model significantly outperforms (up to $5\%$ F1 score) state-of-the-art BERT SLU model.
翻訳日:2023-12-27 16:16:40 公開日:2023-12-25
# 前向きアルゴリズムによる畳み込みニューラルネットワークの学習

Training Convolutional Neural Networks with the Forward-Forward algorithm ( http://arxiv.org/abs/2312.14924v2 )

ライセンス: Link先を確認
Riccardo Scodellaro, Ajinkya Kulkarni, Frauke Alves, Matthias Schr\"oter(参考訳) 最近のディープニューラルネットワークによる画像解析の成功は、畳み込みニューラルネットワーク(CNN)によってほぼ完全に達成されている。 これらのcnnのトレーニングは、実際にはすべてのディープニューラルネットワークアーキテクチャにおいて、ネットワークの出力と望ましい結果を比較するバックプロパゲーションアルゴリズムを使用しており、ネットワークの重み付けを望ましい結果に向けてチューニングするために差が使用される。 2022年のプレプリントで、Geoffrey Hinton氏は、望ましい結果とネットワークの入力時のイメージを渡す別のトレーニング方法を提案した。 このフォーワードフォワード(FF)アルゴリズムは、現在まで完全に接続されたネットワークでしか使われていない。 本稿では,FFパラダイムをCNNに拡張する方法について述べる。 新たな空間拡張ラベル法を特徴とするff学習cnnは,mnist手書き文字データセット上で99.0%の分類精度を実現する。 提案アルゴリズムの性能に異なるハイパーパラメータがどう影響するかを示し、標準バックプロパゲーション手法を用いてトレーニングしたCNNと比較する。 さらに、クラスアクティベーションマップを用いて、FFアルゴリズムによってどの種類の機能が学習されるかを調べる。

The recent successes in analyzing images with deep neural networks are almost exclusively achieved with Convolutional Neural Networks (CNNs). The training of these CNNs, and in fact of all deep neural network architectures, uses the backpropagation algorithm where the output of the network is compared with the desired result and the difference is then used to tune the weights of the network towards the desired outcome. In a 2022 preprint, Geoffrey Hinton suggested an alternative way of training which passes the desired results together with the images at the input of the network. This so called Forward Forward (FF) algorithm has up to now only been used in fully connected networks. In this paper, we show how the FF paradigm can be extended to CNNs. Our FF-trained CNN, featuring a novel spatially-extended labeling technique, achieves a classification accuracy of 99.0% on the MNIST hand-written digits dataset. We show how different hyperparameters affect the performance of the proposed algorithm and compare the results with CNN trained with the standard backpropagation approach. Furthermore, we use Class Activation Maps to investigate which type of features are learnt by the FF algorithm.
翻訳日:2023-12-27 11:14:12 公開日:2023-12-25
# NPHardEval: 複雑性クラスによる大規模言語モデルの推論能力の動的ベンチマーク

NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes ( http://arxiv.org/abs/2312.14890v2 )

ライセンス: Link先を確認
Lizhou Fan, Wenyue Hua, Lingyao Li, Haoyang Ling, Yongfeng Zhang, Libby Hemphill(参考訳) 複雑な推論能力は、現在のLLMの最も重要な特徴の1つであり、複雑な意思決定タスクにおいて重要な役割を果たすために利用されてきた。 したがって,LLMの推論能力を評価するために,大規模言語モデル (LLM) の推論能力に関する多くのベンチマークが確立されている。 しかし、現在のベンチマークはLLMが達成できる推論能力の全範囲を厳格に評価する上で不十分である。 これらのベンチマークは公開アクセス可能で静的であるため、モデルが特定のベンチマークメトリクスに対する応答を調整できる可能性があり、その結果、パフォーマンスが増大する。 これらの制限に対処するため、我々の研究は NPHardEval という新しいベンチマークを導入した。 このベンチマークは、900のアルゴリズム質問の範囲でLLMの推論能力を評価し、NP-Hard複雑性クラスまで拡張するように設計されている。 これらの質問は、NPハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選ばれ、LLMの推論能力の厳密な測度を提供する。 本研究では,LLMにおける推論の現況に光を当て,複雑なクラス間でのLLMの性能の比較を通して,客観的かつ厳密な視点を提供する。 さらに、このベンチマークは動的更新メカニズムで設計されており、データポイントは毎月更新される。 このような定期的な更新は、ベンチマークに過剰に適合するllmのリスクを緩和し、より正確で信頼性の高い推論能力の評価を促進する上で、重要な役割を果たす。 NPHardEvalのベンチマークデータセットとコードはhttps://github.com/casmlab/NPHardEvalで公開されている。

Complex reasoning ability is one of the most important features of current LLMs, which has also been leveraged to play an integral role in complex decision-making tasks. Therefore, the investigation into the reasoning capabilities of Large Language Models (LLMs) is critical: numerous benchmarks have been established to assess the reasoning abilities of LLMs. However, current benchmarks are inadequate in offering a rigorous evaluation of the full extent of reasoning abilities that LLMs are capable of achieving. They are also prone to the risk of overfitting, as these benchmarks, being publicly accessible and static, allow models to potentially tailor their responses to specific benchmark metrics, thereby inflating their performance. Addressing these limitations, our research introduces a new benchmark, named NPHardEval. This benchmark is designed to evaluate the reasoning abilities of LLMs across a broad spectrum of 900 algorithmic questions, extending up to the NP-Hard complexity class. These questions are meticulously chosen to represent a wide range of complexity class below the NP-hard complexity class, offering a rigorous measure of the reasoning ability of LLMs. Through this study, we shed light on the current state of reasoning in LLMs, providing an objective and rigorous perspective through the comparison of LLMs' performance across complex classes. Moreover, this benchmark is designed with a dynamic update mechanism, where the datapoints are refreshed on a monthly basis. Such regular updates play a crucial role in mitigating the risk of LLMs overfitting to the benchmark, promoting a more accurate and reliable assessment of their reasoning capabilities. The benchmark dataset and code of NPHardEval are available at https://github.com/casmlab/NPHardEval.
翻訳日:2023-12-27 11:13:34 公開日:2023-12-25
# TACO:アルゴリズムによるCOde生成データセットのトピック

TACO: Topics in Algorithmic COde generation dataset ( http://arxiv.org/abs/2312.14852v2 )

ライセンス: Link先を確認
Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li(参考訳) 我々は,オープンソースの大規模コード生成データセットであるtacoを紹介し,アルゴリズムの光学に重点を置いて,コード生成モデルの分野でより困難なトレーニングデータセットと評価ベンチマークを提供する。 TACOには、現実のプログラミングシナリオにおける問題理解と推論能力を向上または評価する、より難しい競合レベルのプログラミング質問が含まれている。 トレーニングとテストセットには25433と1000のコーディング問題があり、最大155万の多様な解答がある。 さらに、各TACO問題には、タスクトピック、アルゴリズム、プログラミングスキル、難易度といったいくつかのきめ細かいラベルが含まれており、コード生成モデルのトレーニングと評価をより正確に参照している。 データセットと評価スクリプトはHugging Face Hub(https://huggingface.co/datasets/BAAI/TACO)とGithub(https://github.com/FlagOpen/TACO)で入手できる。

We introduce TACO, an open-source, large-scale code generation dataset, with a focus on the optics of algorithms, designed to provide a more challenging training dataset and evaluation benchmark in the field of code generation models. TACO includes competition-level programming questions that are more challenging, to enhance or evaluate problem understanding and reasoning abilities in real-world programming scenarios. There are 25433 and 1000 coding problems in training and test set, as well as up to 1.55 million diverse solution answers. Moreover, each TACO problem includes several fine-grained labels such as task topics, algorithms, programming skills, and difficulty levels, providing a more precise reference for the training and evaluation of code generation models. The dataset and evaluation scripts are available on Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) and Github (https://github.com/FlagOpen/TACO).
翻訳日:2023-12-27 11:13:07 公開日:2023-12-25
# kemeny定数を用いた最適マルコフ鎖分割のためのグラフニューラルネットワークの大規模学習

Large Scale Training of Graph Neural Networks for Optimal Markov-Chain Partitioning Using the Kemeny Constant ( http://arxiv.org/abs/2312.14847v2 )

ライセンス: Link先を確認
Sam Alexander Martino, Jo\~ao Morado, Chenghao Li, Zhenghao Lu, Edina Rosta(参考訳) 従来のクラスタリングアルゴリズムは、グラフ内の複雑な関係を捉え、任意のクラスタリング基準に一般化するのに苦労することが多い。 グラフデータの表現を学習する強力なフレームワークとしてのグラフニューラルネットワーク(GNN)の出現は、その問題を解決するための新しいアプローチを提供する。 これまでの研究は、GNNが様々な基準を用いてパーティショニングを提案できることを示したが、これらのアプローチはまだマルコフ連鎖や運動ネットワークに拡張されていない。 これらは分子システムの研究で頻繁に発生し、特に生化学的モデリングのコミュニティに興味を持つ。 本稿では,マルコフ連鎖のグラフ分割問題に対処するために,複数のgnnベースのアーキテクチャを提案する。 このアプローチは、提案されたパーティショニングがケメニー定数をどの程度変更するかを最小化することを目的としている。 本稿では,エンコーダデコーダアーキテクチャを用いて,リニアレイヤを持つGraphSAGEベースのGNNが,このコンテキストにおいてより大きく,より表現力に富んだアテンションベースモデルよりも優れていることを示す。 概念実証として,まずランダムに連結されたグラフをクラスタ化する手法を実証する。 また、運動ネットワークとして1次元自由エネルギープロファイルに対応する線形鎖構造を用いる。 その後,分子動力学から得られたデータセットを用いた実験により,本手法の有効性を示す。 本手法の性能をpcca+などの他の分割手法と比較する。 本稿では,特徴量選択とハイパーパラメータ選択の重要性を検討し,gnnの大規模並列学習のための汎用的戦略を提案する。

Traditional clustering algorithms often struggle to capture the complex relationships within graphs and generalise to arbitrary clustering criteria. The emergence of graph neural networks (GNNs) as a powerful framework for learning representations of graph data provides new approaches to solving the problem. Previous work has shown GNNs to be capable of proposing partitionings using a variety of criteria, however, these approaches have not yet been extended to work on Markov chains or kinetic networks. These arise frequently in the study of molecular systems and are of particular interest to the biochemical modelling community. In this work, we propose several GNN-based architectures to tackle the graph partitioning problem for Markov Chains described as kinetic networks. This approach aims to minimize how much a proposed partitioning changes the Kemeny constant. We propose using an encoder-decoder architecture and show how simple GraphSAGE-based GNNs with linear layers can outperform much larger and more expressive attention-based models in this context. As a proof of concept, we first demonstrate the method's ability to cluster randomly connected graphs. We also use a linear chain architecture corresponding to a 1D free energy profile as our kinetic network. Subsequently, we demonstrate the effectiveness of our method through experiments on a data set derived from molecular dynamics. We compare the performance of our method to other partitioning techniques such as PCCA+. We explore the importance of feature and hyperparameter selection and propose a general strategy for large-scale parallel training of GNNs for discovering optimal graph partitionings.
翻訳日:2023-12-27 11:12:25 公開日:2023-12-25